7.3. 使用 Arbiter 对 2 站点扩展集群进行故障排除
管理员可以使用此故障排除信息,了解如何使用仲裁环境对双站点扩展集群进行故障排除和修复。
7.3.1. 在区恢复后恢复工作负载 pod 处于 ContainerCreating
状态
- 问题
执行完区失败和恢复后,工作负载 pod 有时会处于
ContainerCreating
状态,并显示以下错误:- MountDevice 无法创建 newCsiDriverClient: 驱动程序名称 openshift-storage.rbd.csi.ceph.com,在注册的 CSI 驱动程序列表中找不到
- 卷 <volume_name> MountDevice 失败:rpc error: code = Aborted desc = an operation with the given Volume ID <volume_id> already exists
- 卷 <volume_name> MountVolume.SetUp 失败:rpc error: code = Internal desc = staging path <path> for volume <volume_id> is not a mountpoint
- 解决方案
如果工作负载 pod 遇到上述任何错误,请执行以下临时解决方案:
对于 ceph-fs 工作负载,处于
ContainerCreating
中:- 重启调度卡住 pod 的节点
- 删除这些卡住的 pod
- 验证新 pod 是否正在运行
对于 ceph-rbd 工作负载,在
ContainerCreating
中,在一段时间后不会进行自助恢复- 在调度卡住 pod 的节点中重启 csi-rbd 插件 pod
- 验证新 pod 是否正在运行