第3章 Fence Agents Remediation の使用
Fence Agent Remediation Operator を使用して、Self Node Remediation Operator と同様に、異常なノードを自動的に修復できます。FAR は、IPMI などの従来の API エンドポイントを備えた環境で、既存のアップストリームフェンシングエージェントセットを実行してクラスターノードの電源を入れ直す一方で、修復ストラテジー に基づいて Pod を迅速に削除するように設計されています。
Fence Agents Remediation Operator は "Rolling Stream" Operator であり、OpenShift Container Platform リリースの更新が非同期で利用できます。詳細は、Red Hat カスタマーポータルの OpenShift Operator ライフサイクル を参照してください。
3.1. Fence Agent Remediation Operator について リンクのコピーリンクがクリップボードにコピーされました!
Fence Agents Remediation (FAR) Operator は、外部ツールを使用して異常なノードを フェンス します。これらのツールはフェンスエージェントのセットであり、各フェンスエージェントをさまざまな環境で使用してノードをフェンスし、ノードを再起動する従来のアプリケーションプログラミングインターフェイス (API) 呼び出しを使用できます。これにより、FAR はステートフルアプリケーションのダウンタイムを最小限に抑え、一時的な障害が発生した場合にコンピューティング能力を回復し、ワークロードの可用性を向上させることができます。
FAR は、ノードが異常になったときにノードを隔離するだけでなく、ノードを異常な状態から正常な状態に 修復 しようとします。ステートレス Pod を削除するためのテイントを追加し、フェンスエージェントでノードをフェンスし、再起動後にリソースを削除して修復を完了し、残りのワークロード (ほとんどの場合ステートフルワークロード) を削除します。テイントを追加してワークロードを削除すると、ワークロードの再スケジュールが迅速化されます。
Operator は、FenceAgentsRemediation
と呼ばれる新規または削除されたカスタムリソース (CR) を監視します。これにより、CR の名前に基づいてフェンスエージェントがノードを修復します。FAR は、NodeHealthCheck
コントローラーを使用してクラスター内のノードの健全性を検出します。ノードが異常であると識別されると、NodeHealthCheck
リソースは FenceAgentsRemediationTemplate
CR に基づいて FenceAgentsRemediation
CR を作成し、Fence Agents Remediation Operator をトリガーします。
FAR は、フェンスエージェントを使用して Kubernetes ノードをフェンスします。一般に、フェンシングは、応答しない/異常なコンピューターを安全な状態にし、コンピューターを隔離するプロセスです。フェンスエージェントは、管理インターフェイスを使用してフェンシングを実行するソフトウェアコードであり、主にコンピューターの電源の入れ直し、リセット、電源オフを可能にする電源ベースのフェンシングです。フェンスエージェントの例は、Intelligent Platform Management Interface (IPMI) 環境で使用される fence_ipmilan
です。
- 1
- node-name は、正常でないクラスターノードの名前と一致する必要があります。
- 2
- ノードの修復ストラテジーを指定します。利用可能な修復ストラテジーの詳細は、フェンスエージェント修復テンプレートの設定について を参照してください。
Operator には、Red Hat High Availability Add-On でも利用できるフェンスエージェントのセットが含まれており、IPMI や API などの管理インターフェイスを使用して、ベアメタルサーバー、仮想マシン、そしてクラウドプラットフォームのノードをプロビジョニング/再起動します。