10.7.3. 劣化した etcd Operator のリカバリー
マシンの健全性チェック操作後に、障害が発生したメンバーを削除してクラスターの状態を復元することにより、劣化状態にある etcdOperator を復旧します。
たとえば、修復の実行中に、マシンのヘルスチェックによって、etcd をホストしているコントロールプレーンマシンが削除される場合があります。その時点で etcd メンバーにアクセスできない場合、etcd Operator は劣化します。
etcd Operator が劣化している場合、Operator に障害のあるメンバーを強制的に削除させ、クラスターの状態を復元させるには、手動の介入が必要です。
手順
次のコマンドを実行して、クラスター内のコントロールプレーンマシンを一覧表示します。
$ oc get machines \ -l machine.openshift.io/cluster-api-machine-role==master \ -n openshift-machine-api \ -o wide次のいずれかの状態は、コントロールプレーンマシンの障害を示している可能性があります。
-
STATE値はstoppedです。 -
PHASE値はFailedです。 -
PHASE値が 10 分以上Deletingです。
重要続行する前に、クラスターに 2 つの正常なコントロールプレーンマシンがあることを確認します。この手順のアクションを複数のコントロールプレーンマシンで実行すると、etcd クォーラムが失われるリスクがあり、データが失われる可能性があります。
大多数のコントロールプレーンホストが失われ、etcd のクォーラム (定足数) の損失が発生した場合は、この手順ではなく、「直前のクラスター状態への復元に向けた障害復旧」手順を実行する必要があります。
-
次のコマンドを実行して、障害が発生したコントロールプレーンマシンのマシン CR を編集します。
$ oc edit machine <control_plane_machine_name>障害が発生したコントロールプレーンマシンから
lifecycleHooksパラメーターの内容を削除し、変更を保存します。etcd Operator は、障害が発生したマシンをクラスターから削除し、新しい etcd メンバーを安全に追加できるようにします。