7.10. 不健康的块列出节点故障排除
7.10.1. ODFRBDClientBlocked 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
含义 |
此警报表示 RADOS 块设备(RBD)客户端可能会被 Kubernetes 集群内特定节点上的 Ceph 阻止。当 |
影响 | high |
诊断
RBD 客户端的阻塞列表可能会因为几个因素而发生,如网络或集群较慢。在某些情况下,三个contend 客户端(工作负载、镜像守护进程和 manager/scheduler)之间的专用锁定竞争可能会导致 blocklist。
缓解方案
- 污点列入黑名单的节点:在 Kubernetes 中,请考虑将阻止的节点污点,以将 pod 的驱除触发到另一节点。这个方法依赖于正常卸载/取消映射过程的假设。当 pod 成功被驱除后,会取消包含阻塞的节点,允许清除 blocklist。然后,可以将 pod 移到未包含的节点。
- 重启列入黑名单的节点:如果污点节点并驱除 pod 无法解决阻止列表的问题,可以尝试重启阻塞的节点。此步骤可帮助减少导致黑名单和恢复正常功能的底层问题。
重要
及时调查和解决黑名单问题至关重要,以避免进一步对存储集群的影响。