7.3. Arbiter を使用した 2 サイトストレッチクラスターのトラブルシューティング
7.3.1. ゾーン回復後の ContainerCreating
状態でスタックしたワークロード Pod の回復
- 問題
完全なゾーン障害とリカバリーを実行した後、ワークロード Pod が以下のいずれかのエラーで
ContainerCreating
状態のままになることがあります。- MountDevice failed to create newCsiDriverClient: driver name openshift-storage.rbd.csi.ceph.com not found in the list of registered CSI drivers
- MountDevice failed for volume <volume_name> : rpc error: code = Aborted desc = an operation with the given Volume ID <volume_id> already exists
- MountVolume.SetUp failed for volume <volume_name> : rpc error: code = Internal desc = staging path <path> for volume <volume_id> is not a mountpoint
- 解決方法
ワークロード Pod が上記のエラーのいずれかでスタックしている場合は、以下の回避策を実行してください。
ceph-fs ワークロードが
ContainerCreating
でスタックしている場合:- スタックした Pod がスケジュールされているノードを再起動します。
- これらのスタックした Pod を削除します。
- 新規 Pod が実行されていることを確認します。
ceph-rbd ワークロードが
ContainerCreating
でスタックし、しばらくしても自己回復しない場合:- スタックした Pod がスケジュールされているノードで csi-rbd プラグイン Pod を再起動します。
- 新規 Pod が実行されていることを確認します。