6.10. 不健康的阻塞节点故障排除
6.10.1. ODFRBDClientBlocked 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
含义 |
此警报表示 Ceph 在 Kubernetes 集群的特定节点上可能会阻止 RADOS 块设备(RBD)客户端。当 |
影响 | 高 |
诊断
由于多个因素(如网络或集群速度较慢)可能会出现 RBD 客户端阻止列表。在某些情况下,三个持续客户端(工作负载、镜像守护进程和 manager/scheduler)之间的专用锁争用可能会导致 blocklist。
缓解方案
- 为被放入阻塞列表的节点添加污点:在 Kubernetes 中,请考虑污点节点,以触发 pod 驱除到另一节点。这个方法假设卸载/取消映射过程正常进行。pod 成功被驱除后,可能会取消阻塞节点,允许清除 blocklist。然后可将 pod 移到未包含的节点。
- 重启列入阻塞列表的节点:如果污点节点并驱除 pod 没有解决阻塞的问题,则可以尝试重启列入阻塞列表的节点。此步骤可能帮助缓解导致 blocklist 并恢复正常功能的任何底层问题。
重要
及时调查并解决 blocklist 问题对于避免对存储集群有进一步影响至关重要。