etcd

OpenShift Container Platform 4.20

etcd による冗長性の確保

Red Hat OpenShift Documentation Team

概要

このドキュメントでは、OpenShift Container Platform でのクラスター設定と回復力を確保するための信頼性の高いアプローチを提供する etcd の使用方法を説明しています。

第1章 etcd の概要
リンクのコピー

etcd (発音はエトシーディー) は、メモリーに完全に収まるマシンのクラスター全体に少量のデータを保存する、一貫性のある分散型キー値ストアです。etcd は多くのプロジェクトのコアコンポーネントであり、コンテナーオーケストレーションの標準システムである Kubernetes のプライマリーデータストアでもあります。

etcd を使用すると、いくつかの利点があります。

クラウドネイティブアプリケーションの一貫した稼働時間をサポートし、個々のサーバーに障害が発生した場合でも稼働を継続する
Kubernetes のすべてのクラスター状態を保存して複製する
設定データを配布して、ノードの設定に冗長性と回復力を提供する

重要

デフォルトの etcd 設定は、コンテナーオーケストレーションを最適化します。最良の結果を得るには、設計どおりに使用してください。

1.1. etcd の仕組み
リンクのコピー

クラスターの設定と管理に対する信頼性の高いアプローチを確保するために、etcd は etcd Operator を使用します。Operator は、OpenShift Container Platform のような Kubernetes コンテナープラットフォームでの etcd の使用を簡素化します。

さらに、etcd Operator を使用して、OpenShift Container Platform コントロールプレーンの etcd クラスターをデプロイおよび管理できます。etcd Operator は、次の方法でクラスターの状態を管理します。

Kubernetes API を使用してクラスターの状態を監視する
現在の状態と必要な状態の違いを分析する
etcd クラスター管理 API、Kubernetes API、またはその両方を使用して相違点を修正する

注記

etcd は、常に更新されるクラスターの状態を保持します。この状態は継続的に持続するため、高い頻度で多数の小さな変化が発生します。そのため、etcd クラスターメンバーを高速で低レイテンシーの I/O でバックアップすることが重要になります。etcd のベストプラクティスの詳細は、「推奨される etcd プラクティス」を参照してください。

1.2. etcd のパフォーマンスについて
リンクのコピー

etcd は、レプリケートされたノードのクラスターとして動作する一貫性のある分散キー値ストアとして、1 つのノードをリーダーとして、他のノードをフォロワーとして選択する Raft アルゴリズムに従います。リーダーはシステムの現在の状態を維持し、フォロワーが最新の状態であることを確認します。

リーダーノードはログのレプリケーションを実行します。クライアントからの受信書き込みトランザクションを処理し、Raft ログエントリーを書き込み、それをフォロワーにブロードキャストします。

kube-apiserver などの etcd クライアントが、値の書き込みなどのクォーラムを必要とするアクションを要求している etcd メンバーに接続すると、etcd メンバーがフォロワーである場合は、トランザクションをリーダーに送信する必要があることを示すメッセージを返します。

etcd クライアントが、値の書き込みなど、クォーラムを必要とするアクションをリーダーに要求すると、リーダーはクライアントの接続を開いたままにして、ローカルの Raft ログを書き込み、そのログをフォロワーにブロードキャストし、過半数のフォロワーからログが正常にコミットされたことを確認するまで待機します。リーダーは etcd クライアントに確認応答を送信し、セッションを閉じます。フォロワーから障害通知が届き、コンセンサスが得られない場合、リーダーはエラーメッセージをクライアントに返し、セッションを終了します。

OpenShift Container Platform の etcd タイマー条件

OpenShift Container Platform は、各プラットフォームに最適化された etcd タイマーを維持します。OpenShift Container Platform には、それぞれのプラットフォームプロバイダーに最適化された検証済みの値が定められています。platform=none または platform=metal 値を持つデフォルトの etcd timers パラメーターは次のとおりです。

- name: ETCD_ELECTION_TIMEOUT 
  value: "1000"
  ...
- name: ETCD_HEARTBEAT_INTERVAL 
  value: "100"

- name: ETCD_ELECTION_TIMEOUT


  value: "1000"
  ...
- name: ETCD_HEARTBEAT_INTERVAL


  value: "100"

Copy to Clipboard

Toggle word wrap

1: このタイムアウトは、フォロワーノードがリーダーになろうとする前にハートビートを聞かずに待機する時間です。
2: リーダーがフォロワーに対して、自分がまだリーダーであることを通知する頻度。

これらのパラメーターは、コントロールプレーンまたは etcd のすべての情報を提供するわけではありません。etcd クラスターは、ディスクのレイテンシーの影響を受けます。etcd は提案をログに保持する必要があるため、他のプロセスからのディスクアクティビティーによって fsync 待ち時間が長くなる可能性があります。その結果、etcd がハートビートを逃し、要求のタイムアウトや一時的なリーダーの喪失が発生する可能性があります。リーダーの喪失と再選出の間、Kubernetes API は、サービスに影響を与えるイベントやクラスターの不安定性を引き起こす要求を処理できません。

ディスクレイテンシーが etcd に与える影響

etcd クラスターは、ディスクのレイテンシーの影響を受けます。コントロールプレーン環境において etcd が経験するディスクレイテンシーを把握するには、Flexible I/O Tester (fio) テストまたはスイートを実行して、OpenShift Container Platform における etcd のディスクパフォーマンスを確認します。

重要

特定の時点でのディスクレイテンシーを測定するには、fio テストのみを使用します。このテストでは、実稼働環境の etcd で発生する長期的なディスクの動作やその他のディスクワークロードは考慮されていません。

次の例に示すように、最終レポートでディスクが etcd に適切であると分類されていることを確認します。

...
99th percentile of fsync is 5865472 ns
99th percentile of the fsync is within the suggested threshold: - 20 ms, the disk can be used to host etcd

...
99th percentile of fsync is 5865472 ns
99th percentile of the fsync is within the suggested threshold: - 20 ms, the disk can be used to host etcd

Copy to Clipboard

Toggle word wrap

高レイテンシーのディスクが使用されている場合、次の例に示すように、そのディスクは etcd には推奨されないというメッセージが表示されます。

...
99th percentile of fsync is 15865472 ns
99th percentile of the fsync is greater than the suggested value which is 20 ms, faster disks are suggested to host etcd for better performance

...
99th percentile of fsync is 15865472 ns
99th percentile of the fsync is greater than the suggested value which is 20 ms, faster disks are suggested to host etcd for better performance

Copy to Clipboard

Toggle word wrap

クラスターのデプロイメントが、推奨されるレイテンシーを満たさない etcd 用ディスクを使用している多くのデータセンターにまたがっている場合、サービスに影響を及ぼず障害が発生する可能性があります。さらに、コントロールプレーンが許容できるネットワークレイテンシーも大幅に低下します。

ネットワークレイテンシーとジッターが etcd に与える影響

最大転送単位 (MTU) の検出と検証のセクションで説明されているツールを使用して、平均および最大のネットワークレイテンシーを取得します。

ハートビート間隔の値は、メンバー間の平均往復時間 (RTT) の最大値にほぼ等しく、通常は往復時間の約 1.5 倍になります。OpenShift Container Platform のデフォルトのハートビート間隔は 100 ミリ秒であるため、コントロールプレーンノード間の推奨 RTT は 33 ミリ秒未満で、最大値は 66 ミリ秒未満 (66 ミリ秒 x 1.5 = 99 ミリ秒) になります。ネットワークレイテンシーがこれより大きいと、サービスに影響を与えるイベントが発生し、クラスターが不安定になる可能性があります。

ネットワークレイテンシーは、銅線、光ファイバー、無線、衛星などの伝送ネットワークの技術、伝送ネットワーク内のネットワーク機器の数や品質、その他の要因によって決まります。

正確な計算を行うには、ネットワークジッターを含むネットワークレイテンシーを考慮してください。ネットワークジッター とは、ネットワークレイテンシーのばらつきや、受信パケットのレイテンシー時間の変動のことを指します。効率的なネットワーク状況では、ジッターはゼロになるはずです。ネットワークジッターは etcd のネットワークレイテンシーの計算に影響します。これは、時間の経過に伴う実際のネットワークレイテンシーは RTT にジッターを加算または減算したものになるためです。

たとえば、最大レイテンシーが 80 ミリ秒でジッターが 30 ミリ秒のネットワークでは、レイテンシーが 110 ミリ秒になり、etcd はハートビートを逃すことになります。この状態により、要求がタイムアウトし、リーダーが一時的に失われます。リーダーの喪失と再選出の間、Kubernetes API は、サービスに影響を与えるイベントやクラスターの不安定性を引き起こす要求を処理できません。

コンセンサスレイテンシーが etcd に与える影響

この手順はアクティブなクラスター上でのみ実行できます。クラスターのデプロイメントを計画している間に、ディスクまたはネットワークテストを完了する必要があります。このテストは、デプロイメント後のクラスターの健全性を検証および監視します。

etcdctl CLI を使用すると、etcd が経験するコンセンサスに達するまでのレイテンシーを監視できます。etcd Pod の 1 つを識別し、エンドポイントのヘルス情報を取得する必要があります。

etcd ピアの往復時間がパフォーマンスに与える影響

etcd ピアの往復時間は、ネットワークの往復時間と同じではありません。この計算は、メンバー間でレプリケーションがどれだけ速く発生するかに関するエンドツーエンドのテストメトリクスです。

etcd ピアの往復時間は、etcd がすべての etcd メンバー間におけるクライアント要求のレプリケートを完了するまでのレイテンシーを示すメトリクスです。OpenShift Container Platform コンソールは、さまざまな etcd メトリクスを視覚化するためのダッシュボードを提供します。コンソールで、Observe → Dashboards をクリックします。ドロップダウンリストから、etcd を選択します。

etcd Dashboard ページのほぼ最後に、etcd ピアの往復時間をまとめたグラフがあります。

データベースサイズが etcd に与える影響

etcd データベースのサイズは、etcd デフラグプロセスの完了時間に直接影響します。OpenShift Container Platform は、少なくとも 45% の断片化を検出すると、一度に 1 つの etcd メンバーで etcd デフラグを自動的に実行します。デフラグ処理中は、etcd メンバーは要求を処理できません。小さな etcd データベースでは、デフラグ処理は 1 秒未満で実行されます。etcd データベースが大きい場合、ディスクレイテンシーが断片化時間に直接影響し、デフラグの実行中に操作がブロックされるため、追加のレイテンシーが発生します。

etcd データベースのサイズは、ネットワークパーティションによってコントロールプレーンノードが一定期間分離され、通信が再確立された後にコントロールプレーンを同期する必要がある場合に考慮すべき要素です。

etcd データベースのサイズはシステム内の Operator とアプリケーションに依存するため、そのサイズを制御するためのオプションは最小限しかありません。システムが動作するレイテンシー範囲を検討するときは、etcd データベースのサイズごとに同期またはデフラグの影響を考慮してください。

その影響の大きさは、デプロイメントごとに異なります。デフラグが完了するまでの時間は、etcd メンバーがデフラグ処理中に更新を受け入れることができないため、トランザクションレートの低下を引き起こします。同様に、変更率の高い大規模データベースの etcd 再同期にかかる時間は、システム上のトランザクションレートとトランザクションレイテンシーに影響します。計画が必要な影響の種類は、次の 2 つの例を検討してください。

データベースサイズに基づいた etcd デフラグの影響に関する最初の例は、1 GB の etcd データベースを 80 Mb/秒の低速 7200 RPM ディスクに書き込むのに約 1 分 40 秒かかることです。このようなシナリオでは、デフラグが完了するまでに、デフラグプロセスに少なくともこれだけの時間がかかります。

データベースサイズが etcd 同期に与える影響の 2 番目の例は、コントロールプレーンノードの 1 つが切断されている間に etcd データベースの 10% が変更された場合、同期では少なくとも 100 MB を転送する必要があるということです。1 Gbps リンクで 100 MB を転送するには 800 ミリ秒かかります。Kubernetes API を使用した定期的なトランザクションを実行するクラスターでは、etcd データベースのサイズが大きくなるほど、ネットワークの不安定性が増し、コントロールプレーンの不安定性も生じます。

OpenShift Container Platform では、etcd ダッシュボードに etcd データベースのサイズを報告するグラフがあります。または、etcdctl ツールを使用して CLI からデータベースサイズを取得することもできます。

oc get pods -n openshift-etcd -l app=etcd

# oc get pods -n openshift-etcd -l app=etcd

Copy to Clipboard

Toggle word wrap

出力例

NAME      READY   STATUS    RESTARTS   AGE
etcd-m0   4/4     Running   4          22h
etcd-m1   4/4     Running   4          22h
etcd-m2   4/4     Running   4          22h

NAME      READY   STATUS    RESTARTS   AGE
etcd-m0   4/4     Running   4          22h
etcd-m1   4/4     Running   4          22h
etcd-m2   4/4     Running   4          22h

Copy to Clipboard

Toggle word wrap

oc exec -t etcd-m0 -- etcdctl endpoint status -w simple | cut -d, -f 1,3,4

# oc exec -t etcd-m0 -- etcdctl endpoint status -w simple | cut -d, -f 1,3,4

Copy to Clipboard

Toggle word wrap

出力例

https://198.18.111.12:2379, 3.5.6, 1.1 GB
https://198.18.111.13:2379, 3.5.6, 1.1 GB
https://198.18.111.14:2379, 3.5.6, 1.1 GB

https://198.18.111.12:2379, 3.5.6, 1.1 GB
https://198.18.111.13:2379, 3.5.6, 1.1 GB
https://198.18.111.14:2379, 3.5.6, 1.1 GB

Copy to Clipboard

Toggle word wrap

Kubernetes API トランザクションレートが etcd に与える影響

ストレッチコントロールプレーンを使用している場合、Kebernetes API トランザクションレートは、特定のデプロイメントの特性によって異なります。これは、etcd ディスクのレイテンシー、etcd 往復時間、および API に書き込まれるオブジェクトのサイズの組み合わせによって異なります。その結果、ストレッチコントロールプレーンを使用する場合、クラスター管理者は自分たちの環境で維持可能なトランザクションレートを把握するために、環境のテストを行う必要があります。この目的には kube-burner ツールを使用できます。

環境に対する Kubernetes API トランザクションレートの決定

Kubernetes API のトランザクションレートは、測定せずに判断できません。コントロールプレーンの負荷テストに使用されるツールの 1 つは kube-burner です。バイナリーは、OpenShift Container Platform クラスターをテストするための OpenShift Container Platform ラッパーを提供します。これは、クラスターまたはノードの密度をテストするために使用されます。コントロールプレーンをテストするために、kube-burner ocp には、cluster-density、cluster-density-v2、cluster-density-ms の 3 つのワークロードプロファイルがあります。各ワークロードプロファイルは、コントロールをロードするように設計された一連のリソースを作成します。

第2章推奨される etcd プラクティス
リンクのコピー

以下では、etcd の推奨されるパフォーマンスとスケーラビリティープラクティスに関する情報を提供します。

2.1. etcd のストレージプラクティス
リンクのコピー

etcd はデータをディスクに書き込み、プロポーザルをディスクに保持するため、そのパフォーマンスはディスクのパフォーマンスに依存します。etcd は特に I/O を集中的に使用するわけではありませんが、最適なパフォーマンスと安定性を得るには、低レイテンシーのブロックデバイスが必要です。etcd のコンセンサスプロトコルはメタデータをログ (WAL) に永続的に保存することに依存しているため、etcd はディスク書き込みのレイテンシーの影響を受けます。遅いディスクと他のプロセスからのディスクアクティビティーは、長い fsync 待ち時間を引き起こす可能性があります。

これらの待ち時間により、etcd はハートビートを見逃し、新しいプロポーザルを時間どおりにディスクにコミットせず、最終的にリクエストのタイムアウトと一時的なリーダーの喪失を経験する可能性があります。書き込みレイテンシーが高いと、OpenShift API の速度も低下し、クラスターのパフォーマンスに影響します。これらの理由により、I/O を区別する、または集約型であり、同一基盤として I/O インフラストラクチャーを共有する他のワークロードをコントロールプレーンノードに併置することは避けてください。

fdatasync を含め、10 ミリ秒未満で 8 KB の 50 IOPS 以上を連続して書き込むことができるブロックデバイスで etcd を実行します。負荷の高いクラスターの場合、8000 バイト (2 ミリ秒) の連続 500 IOPS が推奨されます。これらの数値を測定するには、fio コマンドなどのベンチマークツールを使用できます。

このようなパフォーマンスを実現するには、低レイテンシーで高スループットの SSD または NVMe ディスクに支えられたマシンで etcd を実行します。シングルレベルセル (SLC) ソリッドステートドライブ (SSD) を検討してください。これは、メモリーセルごとに 1 ビットを提供し、耐久性と信頼性が高く、書き込みの多いワークロードに最適です。

注記

etcd の負荷は、ノードや Pod の数などの静的要因と、Pod の自動スケーリング、Pod の再起動、ジョブの実行、その他のワークロード関連イベントが原因となるエンドポイントの変更などの動的要因から生じます。etcd セットアップのサイズを正確に設定するには、ワークロードの具体的な要件を分析する必要があります。etcd の負荷に影響を与えるノード、Pod、およびその他の関連要素の数を考慮してください。

最適な etcd パフォーマンスを得るには、ハードドライブで以下を適用します。

専用の etcd ドライブを使用します。iSCSI などのネットワーク経由で通信するドライブは回避します。etcd ドライブにログファイルやその他の重いワークロードを配置しないでください。
読み取りおよび書き込みを高速化するために、低レイテンシードライブを優先的に使用します。
圧縮と最適化を高速化するために、高帯域幅の書き込みを優先的に使用します。
障害からの回復を高速化するために、高帯域幅の読み取りを優先的に使用します。
最小の選択肢としてソリッドステートドライブを使用します。実稼働環境には NVMe ドライブの使用が推奨されます。
高い信頼性を確保するためには、サーバーグレードのハードウェアを使用します。
NAS または SAN のセットアップ、および回転するドライブは避けてください。Ceph Rados Block Device (RBD) およびその他のタイプのネットワーク接続ストレージでは、予測できないネットワークレイテンシーが発生する可能性があります。etcd ノードに大規模な高速ストレージを提供するには、PCI パススルーを使用して NVM デバイスをノードに直接渡します。
fio などのユーティリティーを使用して、常にベンチマークを実行してください。このようなユーティリティーを使用すると、クラスターのパフォーマンスが向上するにつれて、そのパフォーマンスを継続的に監視できます。
ネットワークファイルシステム (NFS) プロトコルまたはその他のネットワークベースのファイルシステムの使用は避けてください。

デプロイされた OpenShift Container Platform クラスターでモニターする主要なメトリクスの一部は、etcd ディスクの write ahead log 期間の p99 と etcd リーダーの変更数です。Prometheus を使用してこれらのメトリクスを追跡します。

注記

etcd メンバーデータベースのサイズは、通常の運用時にクラスター内で異なる場合があります。この違いは、リーダーのサイズが他のメンバーと異なっていても、クラスターのアップグレードには影響しません。

2.2. etcd のクラスターレイテンシー要件
リンクのコピー

etcd に低レイテンシー、高可用性ネットワークを提供するには、次の 2 つの重要な制約に対処する必要があります。

ネットワーク I/O レイテンシー
ディスク I/O レイテンシー

etcd は Raft コンセンサスアルゴリズムを使用しており、すべての変更はコミットされる前にクラスターメンバーの大多数にレプリケートされる必要があります。このプロセスは、ネットワークとディスクのパフォーマンスに強く影響されます。etcd リクエストの最小時間は、メンバー間のラウンドトリップタイム (RTT) と、データを永続ストレージに書き込むために必要な時間の合計です。

高可用性を実現するには、etcd はリーダー障害を迅速に検出し、そこから復旧する必要があります。これは、次の 2 つの主要なチューニングパラメーターに依存します。

ハートビートの間隔: リーダーがフォロワーにハートビートを送信する頻度。この値は、メンバー間の平均 RTT に近い値になる必要があります。
選出タイムアウト: フォロワーが新しいリーダーになろうとする前に、ハートビートを聞かずに待機する時間。ネットワークの変動を考慮すると、これは RTT 値の少なくとも 10 倍にする必要があります。

健全なクラスターでは、安定性を確保し、頻繁なリーダー選出を回避するために、メンバー間のラウンドトリップ時間は 50 ミリ秒未満である必要があります。このため、etcd クラスターは、物理的な距離とネットワークレイテンシーを最小限に抑えるために、単一のデータセンターまたはアベイラビリティーゾーン内にデプロイされることがよくあります。

特にリーダー選出プロセス中に、低レイテンシーで高可用性のネットワークをサポートするには、アービターサイトを 10 ミリ秒未満の RTT レイテンシーを提供する場所に配置する必要があります。ネットワークのアービターコンポーネントは、分散システムの一貫性と可用性を維持します。

2.3. etcd のハードウェアの検証
リンクのコピー

OpenShift Container Platform クラスターの作成前または作成後に etcd のハードウェアを検証するには、fio を使用できます。

前提条件

Podman や Docker などのコンテナーランタイムが、テストしているマシンにインストールされている。
データは /var/lib/etcd パスに書き込まれます。

手順

fio を実行し、結果を分析します。

Podman を使用する場合は、次のコマンドを実行します。

sudo podman run --volume /var/lib/etcd:/var/lib/etcd:Z quay.io/cloud-bulldozer/etcd-perf

$ sudo podman run --volume /var/lib/etcd:/var/lib/etcd:Z quay.io/cloud-bulldozer/etcd-perf

Copy to Clipboard

Toggle word wrap

Docker を使用する場合は、次のコマンドを実行します。

sudo docker run --volume /var/lib/etcd:/var/lib/etcd:Z quay.io/cloud-bulldozer/etcd-perf

$ sudo docker run --volume /var/lib/etcd:/var/lib/etcd:Z quay.io/cloud-bulldozer/etcd-perf

Copy to Clipboard

Toggle word wrap

この出力では、実行からキャプチャーされた fsync メトリクスの 99 パーセンタイルの比較でディスクが 10 ms 未満かどうかを確認して、ディスクの速度が etcd をホストするのに十分であるかどうかを報告します。I/O パフォーマンスの影響を受ける可能性のある最も重要な etcd メトリクスのいくつかを以下に示します。

etcd_disk_wal_fsync_duration_seconds_bucket メトリクスは、etcd の WAL fsync 期間を報告します。
etcd_disk_backend_commit_duration_seconds_bucket メトリクスは、etcd バックエンドコミットの待機時間を報告します。
etcd_server_leader_changes_seen_total メトリクスは、リーダーの変更を報告します。

etcd はすべてのメンバー間で要求を複製するため、そのパフォーマンスはネットワーク入出力 (I/O) のレイテンシーによって大きく変わります。ネットワークのレイテンシーが高くなると、etcd のハートビートの時間は選択のタイムアウトよりも長くなり、その結果、クラスターに中断をもたらすリーダーの選択が発生します。デプロイされた OpenShift Container Platform クラスターでのモニターの主要なメトリクスは、各 etcd クラスターメンバーの etcd ネットワークピアレイテンシーの 99 番目のパーセンタイルになります。Prometheus を使用してメトリクスを追跡します。

histogram_quantile(0.99, rate(etcd_network_peer_round_trip_time_seconds_bucket[2m])) メトリクスは、etcd がメンバー間におけるクライアント要求のレプリケートを完了するまでの往復時間を報告します。50 ミリ秒未満であることを確認してください。

第3章信頼性の高い etcd パフォーマンスとスケーラビリティーの確保
リンクのコピー

etcd で最適なパフォーマンスを確保するには、ノードのスケーリング、リーダーの選出、ログのレプリケーション、チューニング、レイテンシー、ネットワークジッター、ピアのラウンドトリップ時間、データベースサイズ、Kubernetes API トランザクションレートなど、パフォーマンスに影響する条件を理解することが重要です。

3.1. etcd のリーダー選出とログレプリケーション
リンクのコピー

etcd は、複製されたノードのクラスターとして動作する、一貫性のある分散型キー値ストアです。etcd は、Raft アルゴリズムに従って 1 つのノードをリーダーとして、他のノードをフォロワーとして選出することで動作します。リーダーは、システムの現在の状態を維持し、フォロワーが最新であることを確認します。

kube-apiserver などの etcd クライアントが、値の書き込みなどのクォーラムを必要とするアクションを要求している etcd メンバーに接続すると、その etcd メンバーがフォロワーである場合は、トランザクションをリーダーに送信する必要があることを示すメッセージを返します。

etcd クライアントが、クォーラムを必要とするアクションをリーダーに要求すると、リーダーはクライアントの接続を開いたまま、ローカルの Raft ログを書き込み、そのログをフォロワーにブロードキャストし、過半数のフォロワーからログが正常にコミットされたことを確認するまで待機します。その後、リーダーは etcd クライアントに完了通知を送信し、セッションを終了します。フォロワーから失敗通知を受信し、過半数が合意に達することができなかった場合、リーダーはクライアントにエラーメッセージを返し、セッションを閉じます。

3.2. etcd のノードスケーリング
リンクのコピー

一般に、クラスターには 3 つのコントロールプレーンノードが必要です。ただし、クラスターがベアメタルプラットフォームにインストールされている場合、クラスターは最大 5 つのコントロールプレーンノードを持つことができます。既存のベアメタルクラスターのコントロールプレーンノードが 5 個未満の場合、インストール後のタスクとしてクラスターをスケールアップできます。

たとえば、インストール後に 3 ノードから 4 ノードに拡張するには、ホストを追加してコントロールプレーンノードとしてインストールします。次に、etcd Operator は追加のコントロールプレーンノードを考慮してそれに応じてスケーリングします。

クラスターを 4 つまたは 5 つのコントロールプレーンノードにスケーリングできるのは、ベアメタルプラットフォームのみです。

Assisted Installer を使用してコントロールプレーンノードをスケーリングする方法の詳細は、「API を使用したホストの追加」および「正常なクラスター内のコントロールプレーンノードの置き換え」を参照してください。

注記

コントロールプレーンノードを追加すると信頼性と可用性が向上しますが、スループットが低下し、レイテンシーが増加してパフォーマンスに影響する可能性があります。

次の表は、さまざまなサイズのクラスターの障害許容度を示しています。

Expand

表3.1 クラスターサイズによる障害許容度
クラスターサイズ	過半数	障害許容度
1 ノード	1	0
3 ノード	2	1
4 ノード	3	1
5 ノード	3	2

クォーラム損失からの回復の詳細は、「以前のクラスター状態への復元」を参照してください。

3.3. ディスクレイテンシーが etcd に与える影響
リンクのコピー

etcd クラスターは、ディスクのレイテンシーの影響を受けます。コントロールプレーン環境で etcd に発生しているディスクレイテンシーを把握するには、fio テストまたはスイートを実行します。

次の例に示すように、最終レポートでディスクが etcd に適切であると分類されていることを確認します。

...
99th percentile of fsync is 5865472 ns
99th percentile of the fsync is within the recommended threshold: - 20 ms, the disk can be used to host etcd

...
99th percentile of fsync is 5865472 ns
99th percentile of the fsync is within the recommended threshold: - 20 ms, the disk can be used to host etcd

Copy to Clipboard

Toggle word wrap

高レイテンシーのディスクが使用されている場合、次の例に示すように、そのディスクは etcd には推奨されないというメッセージが表示されます。

...
99th percentile of fsync is 15865472 ns
99th percentile of the fsync is greater than the recommended value which is 20 ms, faster disks are recommended to host etcd for better performance

...
99th percentile of fsync is 15865472 ns
99th percentile of the fsync is greater than the recommended value which is 20 ms, faster disks are recommended to host etcd for better performance

Copy to Clipboard

Toggle word wrap

推奨レイテンシーを満たさない etcd 用ディスクを使用しているデータセンターを複数またぐクラスターデプロイメントを使用すると、サービスに影響する障害が発生する可能性が高まり、コントロールプレーンが維持できるネットワークレイテンシーが大幅に減少します。

3.4. etcd のコンセンサスレイテンシーの監視
リンクのコピー

etcdctl CLI を使用すると、etcd で発生するコンセンサスに達するまでのレイテンシーを監視できます。etcd Pod の 1 つを識別し、エンドポイントのヘルス情報を取得する必要があります。

クラスターの健全性を検証および監視するこの手順は、アクティブなクラスターに対してのみ実行できます。

前提条件

クラスターのデプロイメントの計画中に、ディスクとネットワークのテストを完了した。

手順

以下のコマンドを入力します。

oc get pods -n openshift-etcd -l app=etcd

# oc get pods -n openshift-etcd -l app=etcd

Copy to Clipboard

Toggle word wrap

出力例

NAME      READY   STATUS    RESTARTS   AGE
etcd-m0   4/4     Running   4          8h
etcd-m1   4/4     Running   4          8h
etcd-m2   4/4     Running   4          8h

NAME      READY   STATUS    RESTARTS   AGE
etcd-m0   4/4     Running   4          8h
etcd-m1   4/4     Running   4          8h
etcd-m2   4/4     Running   4          8h

Copy to Clipboard

Toggle word wrap

以下のコマンドを入力します。コンセンサスの etcd レイテンシーをより正確に把握するために、このコマンドを正確な監視サイクルで数分間実行し、数値が ~66 ミリ秒のしきい値を下回っていることを確認します。コンセンサス時間が 100 ミリ秒に近いほど、クラスターにおけるサービスに影響を与えるイベントが発生して不安定になる可能性が高くなります。

oc exec -ti etcd-m0 -- etcdctl endpoint health -w table

# oc exec -ti etcd-m0 -- etcdctl endpoint health -w table

Copy to Clipboard

Toggle word wrap

出力例

+----------------------------+--------+-------------+-------+
|          ENDPOINT          | HEALTH |    TOOK     | ERROR |
+----------------------------+--------+-------------+-------+
| https://198.18.111.12:2379 |   true |  3.798349ms |       |
| https://198.18.111.14:2379 |   true |  7.389608ms |       |
| https://198.18.111.13:2379 |   true |  6.263117ms |       |
+----------------------------+--------+-------------+-------+

+----------------------------+--------+-------------+-------+
|          ENDPOINT          | HEALTH |    TOOK     | ERROR |
+----------------------------+--------+-------------+-------+
| https://198.18.111.12:2379 |   true |  3.798349ms |       |
| https://198.18.111.14:2379 |   true |  7.389608ms |       |
| https://198.18.111.13:2379 |   true |  6.263117ms |       |
+----------------------------+--------+-------------+-------+

Copy to Clipboard

Toggle word wrap

以下のコマンドを入力します。

oc exec -ti etcd-m0 -- watch -dp -c etcdctl endpoint health -w table

# oc exec -ti etcd-m0 -- watch -dp -c etcdctl endpoint health -w table

Copy to Clipboard

Toggle word wrap

出力例

+----------------------------+--------+-------------+-------+
|          ENDPOINT          | HEALTH |    TOOK     | ERROR |
+----------------------------+--------+-------------+-------+
| https://198.18.111.12:2379 |   true |  9.533405ms |       |
| https://198.18.111.13:2379 |   true |  4.628054ms |       |
| https://198.18.111.14:2379 |   true |  5.803378ms |       |
+----------------------------+--------+-------------+-------+

+----------------------------+--------+-------------+-------+
|          ENDPOINT          | HEALTH |    TOOK     | ERROR |
+----------------------------+--------+-------------+-------+
| https://198.18.111.12:2379 |   true |  9.533405ms |       |
| https://198.18.111.13:2379 |   true |  4.628054ms |       |
| https://198.18.111.14:2379 |   true |  5.803378ms |       |
+----------------------------+--------+-------------+-------+

Copy to Clipboard

Toggle word wrap

3.5. etcd を別のディスクに移動する
リンクのコピー

etcd を共有ディスクから別のディスクに移動して、パフォーマンスの問題を防止または解決できます。

Machine Config Operator (MCO) は、OpenShift Container Platform 4.20 コンテナーストレージのセカンダリーディスクをマウントします。

注記

このエンコードされたスクリプトは、次のデバイスタイプのデバイス名のみをサポートします。

SCSI または SATA: /dev/sd*
仮想デバイス: /dev/vd*
NVMe: /dev/nvme*[0-9]*n*

制限事項

新しいディスクがクラスターに接続されると、etcd データベースがルートマウントの一部になります。プライマリーノードが再作成されるとき、ルートマウントはセカンダリーディスクまたは目的のディスクの一部ではありません。そのため、プライマリーノードは個別の /var/lib/etcd マウントを作成しません。

前提条件

クラスターの etcd データのバックアップを作成している。
OpenShift CLI (oc) がインストールされている。
cluster-admin 権限でクラスターにアクセスできる。
マシン設定をアップロードする前に、追加のディスクを追加する。
MachineConfigPool は metadata.labels[machineconfiguration.openshift.io/role] と一致する必要があります。これは、コントローラー、ワーカー、またはカスタムプールに適用されます。

注記

この手順では、/var/ などのルートファイルシステムの一部を、インストール済みノードの別のディスクまたはパーティションに移動しません。

重要

コントロールプレーンマシンセットを使用する場合は、この手順がサポートされません。

手順

新しいディスクをクラスターに接続し、デバッグシェルで lsblk コマンドを実行して、ディスクがノード内で検出されることを確認します。
```
oc debug node/<node_name>
```
```
$ oc debug node/<node_name>
```
Copy to Clipboard Toggle word wrap
```
lsblk
```
```
# lsblk
```
Copy to Clipboard Toggle word wrap
lsblk コマンドで報告された新しいディスクのデバイス名をメモします。

次のスクリプトを作成し、名前を etcd-find-secondary-device.sh にします。

#!/bin/bash
set -uo pipefail

for device in <device_type_glob>; do 
/usr/sbin/blkid "${device}" &> /dev/null
 if [ $? == 2  ]; then
    echo "secondary device found ${device}"
    echo "creating filesystem for etcd mount"
    mkfs.xfs -L var-lib-etcd -f "${device}" &> /dev/null
    udevadm settle
    touch /etc/var-lib-etcd-mount
    exit
 fi
done
echo "Couldn't find secondary block device!" >&2
exit 77

#!/bin/bash
set -uo pipefail

for device in <device_type_glob>; do


/usr/sbin/blkid "${device}" &> /dev/null
 if [ $? == 2  ]; then
    echo "secondary device found ${device}"
    echo "creating filesystem for etcd mount"
    mkfs.xfs -L var-lib-etcd -f "${device}" &> /dev/null
    udevadm settle
    touch /etc/var-lib-etcd-mount
    exit
 fi
done
echo "Couldn't find secondary block device!" >&2
exit 77

Copy to Clipboard

Toggle word wrap

1: <device_type_glob> は、ブロックデバイスタイプのシェル glob に置き換えます。SCSI または SATA ドライブの場合は /dev/sd* を使用し、仮想ドライブの場合は /dev/vd* を使用し、NVMe ドライブの場合は /dev/nvme*[0-9]*n* を使用します。

etcd-find-secondary-device.sh スクリプトから base64 でエンコードされた文字列を作成し、その内容をメモします。
```
base64 -w0 etcd-find-secondary-device.sh
```
```
$ base64 -w0 etcd-find-secondary-device.sh
```
Copy to Clipboard Toggle word wrap

次のような内容を含む etcd-mc.yml という名前の MachineConfig YAML ファイルを作成します。

apiVersion: machineconfiguration.openshift.io/v1
kind: MachineConfig
metadata:
  labels:
    machineconfiguration.openshift.io/role: master
  name: 98-var-lib-etcd
spec:
  config:
    ignition:
      version: 3.5.0
    storage:
      files:
        - path: /etc/find-secondary-device
          mode: 0755
          contents:
            source: data:text/plain;charset=utf-8;base64,<encoded_etcd_find_secondary_device_script> 
    systemd:
      units:
        - name: find-secondary-device.service
          enabled: true
          contents: |
            [Unit]
            Description=Find secondary device
            DefaultDependencies=false
            After=systemd-udev-settle.service
            Before=local-fs-pre.target
            ConditionPathExists=!/etc/var-lib-etcd-mount

            [Service]
            RemainAfterExit=yes
            ExecStart=/etc/find-secondary-device

            RestartForceExitStatus=77

            [Install]
            WantedBy=multi-user.target
        - name: var-lib-etcd.mount
          enabled: true
          contents: |
            [Unit]
            Before=local-fs.target

            [Mount]
            What=/dev/disk/by-label/var-lib-etcd
            Where=/var/lib/etcd
            Type=xfs
            TimeoutSec=120s

            [Install]
            RequiredBy=local-fs.target
        - name: sync-var-lib-etcd-to-etcd.service
          enabled: true
          contents: |
            [Unit]
            Description=Sync etcd data if new mount is empty
            DefaultDependencies=no
            After=var-lib-etcd.mount var.mount
            Before=crio.service

            [Service]
            Type=oneshot
            RemainAfterExit=yes
            ExecCondition=/usr/bin/test ! -d /var/lib/etcd/member
            ExecStart=/usr/sbin/setsebool -P rsync_full_access 1
            ExecStart=/bin/rsync -ar /sysroot/ostree/deploy/rhcos/var/lib/etcd/ /var/lib/etcd/
            ExecStart=/usr/sbin/semanage fcontext -a -t container_var_lib_t '/var/lib/etcd(/.*)?'
            ExecStart=/usr/sbin/setsebool -P rsync_full_access 0
            TimeoutSec=0

            [Install]
            WantedBy=multi-user.target graphical.target
        - name: restorecon-var-lib-etcd.service
          enabled: true
          contents: |
            [Unit]
            Description=Restore recursive SELinux security contexts
            DefaultDependencies=no
            After=var-lib-etcd.mount
            Before=crio.service

            [Service]
            Type=oneshot
            RemainAfterExit=yes
            ExecStart=/sbin/restorecon -R /var/lib/etcd/
            TimeoutSec=0

            [Install]
            WantedBy=multi-user.target graphical.target

apiVersion: machineconfiguration.openshift.io/v1
kind: MachineConfig
metadata:
  labels:
    machineconfiguration.openshift.io/role: master
  name: 98-var-lib-etcd
spec:
  config:
    ignition:
      version: 3.5.0
    storage:
      files:
        - path: /etc/find-secondary-device
          mode: 0755
          contents:
            source: data:text/plain;charset=utf-8;base64,<encoded_etcd_find_secondary_device_script>


    systemd:
      units:
        - name: find-secondary-device.service
          enabled: true
          contents: |
            [Unit]
            Description=Find secondary device
            DefaultDependencies=false
            After=systemd-udev-settle.service
            Before=local-fs-pre.target
            ConditionPathExists=!/etc/var-lib-etcd-mount

            [Service]
            RemainAfterExit=yes
            ExecStart=/etc/find-secondary-device

            RestartForceExitStatus=77

            [Install]
            WantedBy=multi-user.target
        - name: var-lib-etcd.mount
          enabled: true
          contents: |
            [Unit]
            Before=local-fs.target

            [Mount]
            What=/dev/disk/by-label/var-lib-etcd
            Where=/var/lib/etcd
            Type=xfs
            TimeoutSec=120s

            [Install]
            RequiredBy=local-fs.target
        - name: sync-var-lib-etcd-to-etcd.service
          enabled: true
          contents: |
            [Unit]
            Description=Sync etcd data if new mount is empty
            DefaultDependencies=no
            After=var-lib-etcd.mount var.mount
            Before=crio.service

            [Service]
            Type=oneshot
            RemainAfterExit=yes
            ExecCondition=/usr/bin/test ! -d /var/lib/etcd/member
            ExecStart=/usr/sbin/setsebool -P rsync_full_access 1
            ExecStart=/bin/rsync -ar /sysroot/ostree/deploy/rhcos/var/lib/etcd/ /var/lib/etcd/
            ExecStart=/usr/sbin/semanage fcontext -a -t container_var_lib_t '/var/lib/etcd(/.*)?'
            ExecStart=/usr/sbin/setsebool -P rsync_full_access 0
            TimeoutSec=0

            [Install]
            WantedBy=multi-user.target graphical.target
        - name: restorecon-var-lib-etcd.service
          enabled: true
          contents: |
            [Unit]
            Description=Restore recursive SELinux security contexts
            DefaultDependencies=no
            After=var-lib-etcd.mount
            Before=crio.service

            [Service]
            Type=oneshot
            RemainAfterExit=yes
            ExecStart=/sbin/restorecon -R /var/lib/etcd/
            TimeoutSec=0

            [Install]
            WantedBy=multi-user.target graphical.target

Copy to Clipboard

Toggle word wrap

1: <encoded_etcd_find_secondary_device_script> を、メモしておいたエンコードされたスクリプトの内容に置き換えます。

作成した MachineConfig YAML ファイルを適用します。
```
oc create -f etcd-mc.yml
```
```
$ oc create -f etcd-mc.yml
```
Copy to Clipboard Toggle word wrap

検証手順

ノードのデバッグシェルで grep /var/lib/etcd /proc/mounts コマンドを実行して、ディスクがマウントされていることを確認します。
```
oc debug node/<node_name>
```
```
$ oc debug node/<node_name>
```
Copy to Clipboard Toggle word wrap
```
grep -w "/var/lib/etcd" /proc/mounts
```
```
# grep -w "/var/lib/etcd" /proc/mounts
```
Copy to Clipboard Toggle word wrap
出力例
```
/dev/sdb /var/lib/etcd xfs rw,seclabel,relatime,attr2,inode64,logbufs=8,logbsize=32k,noquota 0 0
```
```
/dev/sdb /var/lib/etcd xfs rw,seclabel,relatime,attr2,inode64,logbufs=8,logbsize=32k,noquota 0 0
```
Copy to Clipboard Toggle word wrap

3.6. etcd データのデフラグ
リンクのコピー

大規模で密度の高いクラスターの場合、キースペースが大きくなりすぎてスペースのクォータを超えると、etcd のパフォーマンスが低下する可能性があります。定期的に etcd をメンテナンスしてデフラグし、データストアの領域を解放してください。Prometheus で etcd メトリクスを監視し、必要に応じてデフラグしてください。そうしないと、etcd がクラスター全体のアラームを発し、クラスターがキーの読み取りと削除しか受け付けないメンテナンスモードになる可能性があります。

以下の主要なメトリクスを監視してください。

etcd_server_quota_backend_bytes。これは現在のクォータ制限です。
etcd_mvcc_db_total_size_in_use_in_bytes。履歴圧縮後の実際のデータベース使用量を示します。
etcd_mvcc_db_total_size_in_bytes。デフラグ待ちの空き領域を含むデータベースのサイズを示します。

etcd データをデフラグし、etcd 履歴の圧縮などのディスクの断片化を引き起こすイベント後にディスク領域を回収します。

履歴の圧縮は 5 分ごとに自動的に行われ、これによりバックエンドデータベースにギャップが生じます。この断片化された領域は etcd が使用できますが、ホストファイルシステムでは利用できません。ホストファイルシステムでこの領域を使用できるようにするには、etcd をデフラグする必要があります。

デフラグは自動的に行われますが、手動でトリガーすることもできます。

注記

etcd Operator はクラスター情報を使用してユーザーの最も効率的な操作を決定するため、ほとんどの場合、自動デフラグが適しています。

3.6.1. 自動デフラグ
リンクのコピー

etcd Operator はディスクを自動的にデフラグします。手動による介入は必要ありません。

以下のログのいずれかを表示して、デフラグプロセスが成功したことを確認します。

etcd ログ
cluster-etcd-operator Pod
Operator ステータスのエラーログ

警告

自動デフラグにより、Kubernetes コントローラーマネージャーなどのさまざまな OpenShift コアコンポーネントでリーダー選出の失敗が発生し、失敗したコンポーネントの再起動がトリガーされる可能性があります。再起動は無害であり、次に実行中のインスタンスへのフェイルオーバーをトリガーするか、再起動後にコンポーネントが再び作業を再開します。

デフラグ成功時のログ出力例

etcd member has been defragmented: <member_name>, memberID: <member_id>

etcd member has been defragmented: <member_name>, memberID: <member_id>

Copy to Clipboard

Toggle word wrap

デフラグ失敗時のログ出力例

failed defrag on member: <member_name>, memberID: <member_id>: <error_message>

failed defrag on member: <member_name>, memberID: <member_id>: <error_message>

Copy to Clipboard

Toggle word wrap

3.6.2. 手動デフラグ
リンクのコピー

Prometheus アラートは、手動でのデフラグを使用する必要がある場合を示します。アラートは次の 2 つの場合に表示されます。

etcd が使用可能なスペースの 50% 以上を 10 分を超過して使用する場合
etcd が合計データベースサイズの 50% 未満を 10 分を超過してアクティブに使用している場合

また、デフラグによって解放される etcd データベースのサイズ (MB 単位) を確認することで、デフラグが必要かどうかを判断することもできます。これは (etcd_mvcc_db_total_size_in_bytes - etcd_mvcc_db_total_size_in_use_in_bytes)/1024/1024 という PromQL 式を使用して確認できます。

警告

etcd のデフラグはプロセスを阻止するアクションです。etcd メンバーはデフラグが完了するまで応答しません。このため、各 Pod のデフラグアクションごとに少なくとも 1 分間待機し、クラスターが回復できるようにします。

以下の手順に従って、各 etcd メンバーで etcd データをデフラグします。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。

手順

リーダーを最後にデフラグする必要があるため、どの etcd メンバーがリーダーであるかを判別します。

etcd Pod のリストを取得します。

oc -n openshift-etcd get pods -l k8s-app=etcd -o wide

$ oc -n openshift-etcd get pods -l k8s-app=etcd -o wide

Copy to Clipboard

Toggle word wrap

出力例

etcd-ip-10-0-159-225.example.redhat.com                3/3     Running     0          175m   10.0.159.225   ip-10-0-159-225.example.redhat.com   <none>           <none>
etcd-ip-10-0-191-37.example.redhat.com                 3/3     Running     0          173m   10.0.191.37    ip-10-0-191-37.example.redhat.com    <none>           <none>
etcd-ip-10-0-199-170.example.redhat.com                3/3     Running     0          176m   10.0.199.170   ip-10-0-199-170.example.redhat.com   <none>           <none>

etcd-ip-10-0-159-225.example.redhat.com                3/3     Running     0          175m   10.0.159.225   ip-10-0-159-225.example.redhat.com   <none>           <none>
etcd-ip-10-0-191-37.example.redhat.com                 3/3     Running     0          173m   10.0.191.37    ip-10-0-191-37.example.redhat.com    <none>           <none>
etcd-ip-10-0-199-170.example.redhat.com                3/3     Running     0          176m   10.0.199.170   ip-10-0-199-170.example.redhat.com   <none>           <none>

Copy to Clipboard

Toggle word wrap

Pod を選択し、以下のコマンドを実行して、どの etcd メンバーがリーダーであるかを判別します。

oc rsh -n openshift-etcd etcd-ip-10-0-159-225.example.redhat.com etcdctl endpoint status --cluster -w table

$ oc rsh -n openshift-etcd etcd-ip-10-0-159-225.example.redhat.com etcdctl endpoint status --cluster -w table

Copy to Clipboard

Toggle word wrap

出力例

Defaulting container name to etcdctl.
Use 'oc describe pod/etcd-ip-10-0-159-225.example.redhat.com -n openshift-etcd' to see all of the containers in this pod.
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|         ENDPOINT          |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|  https://10.0.191.37:2379 | 251cd44483d811c3 |   3.5.9 |  104 MB |     false |      false |         7 |      91624 |              91624 |        |
| https://10.0.159.225:2379 | 264c7c58ecbdabee |   3.5.9 |  104 MB |     false |      false |         7 |      91624 |              91624 |        |
| https://10.0.199.170:2379 | 9ac311f93915cc79 |   3.5.9 |  104 MB |      true |      false |         7 |      91624 |              91624 |        |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

Defaulting container name to etcdctl.
Use 'oc describe pod/etcd-ip-10-0-159-225.example.redhat.com -n openshift-etcd' to see all of the containers in this pod.
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|         ENDPOINT          |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|  https://10.0.191.37:2379 | 251cd44483d811c3 |   3.5.9 |  104 MB |     false |      false |         7 |      91624 |              91624 |        |
| https://10.0.159.225:2379 | 264c7c58ecbdabee |   3.5.9 |  104 MB |     false |      false |         7 |      91624 |              91624 |        |
| https://10.0.199.170:2379 | 9ac311f93915cc79 |   3.5.9 |  104 MB |      true |      false |         7 |      91624 |              91624 |        |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

Copy to Clipboard

Toggle word wrap

この出力の IS LEADER 列に基づいて、https://10.0.199.170:2379 エンドポイントがリーダーになります。このエンドポイントを直前の手順の出力に一致させると、リーダーの Pod 名は etcd-ip-10-0-199-170.example.redhat.com になります。

etcd メンバーのデフラグ。

実行中の etcd コンテナーに接続し、リーダーではない Pod の名前を渡します。
```
oc rsh -n openshift-etcd etcd-ip-10-0-159-225.example.redhat.com
```
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-159-225.example.redhat.com
```
Copy to Clipboard Toggle word wrap
ETCDCTL_ENDPOINTS 環境変数の設定を解除します。
```
unset ETCDCTL_ENDPOINTS
```
```
sh-4.4# unset ETCDCTL_ENDPOINTS
```
Copy to Clipboard Toggle word wrap
etcd メンバーのデフラグを実行します。
```
etcdctl --command-timeout=30s --endpoints=https://localhost:2379 defrag
```
```
sh-4.4# etcdctl --command-timeout=30s --endpoints=https://localhost:2379 defrag
```
Copy to Clipboard Toggle word wrap
出力例
```
Finished defragmenting etcd member[https://localhost:2379]
```
```
Finished defragmenting etcd member[https://localhost:2379]
```
Copy to Clipboard Toggle word wrap
タイムアウトエラーが発生した場合は、コマンドが正常に実行されるまで --command-timeout の値を増やします。

データベースサイズが縮小されていることを確認します。

etcdctl endpoint status -w table --cluster

sh-4.4# etcdctl endpoint status -w table --cluster

Copy to Clipboard

Toggle word wrap

出力例

+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|         ENDPOINT          |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|  https://10.0.191.37:2379 | 251cd44483d811c3 |   3.5.9 |  104 MB |     false |      false |         7 |      91624 |              91624 |        |
| https://10.0.159.225:2379 | 264c7c58ecbdabee |   3.5.9 |   41 MB |     false |      false |         7 |      91624 |              91624 |        | 
| https://10.0.199.170:2379 | 9ac311f93915cc79 |   3.5.9 |  104 MB |      true |      false |         7 |      91624 |              91624 |        |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|         ENDPOINT          |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|  https://10.0.191.37:2379 | 251cd44483d811c3 |   3.5.9 |  104 MB |     false |      false |         7 |      91624 |              91624 |        |
| https://10.0.159.225:2379 | 264c7c58ecbdabee |   3.5.9 |   41 MB |     false |      false |         7 |      91624 |              91624 |        |


| https://10.0.199.170:2379 | 9ac311f93915cc79 |   3.5.9 |  104 MB |      true |      false |         7 |      91624 |              91624 |        |
+---------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

Copy to Clipboard

Toggle word wrap

この例では、この etcd メンバーのデータベースサイズは、開始時のサイズの 104 MB ではなく 41 MB です。

これらの手順を繰り返して他の etcd メンバーのそれぞれに接続し、デフラグします。常に最後にリーダーをデフラグします。
etcd Pod が回復するように、デフラグアクションごとに 1 分以上待機します。etcd Pod が回復するまで、etcd メンバーは応答しません。

領域のクォータの超過により NOSPACE アラームがトリガーされる場合、それらをクリアします。
1. NOSPACE アラームがあるかどうかを確認します。
  sh-4.4# etcdctl alarm list
  Copy to Clipboard Toggle word wrap
  出力例
  memberID:12345678912345678912 alarm:NOSPACE
  
  Copy to Clipboard Toggle word wrap
2. アラームをクリアします。
  sh-4.4# etcdctl alarm disarm
  Copy to Clipboard Toggle word wrap

3.7. etcd のチューニングパラメーターの設定
リンクのコピー

コントロールプレーンのハードウェア速度を "Standard"、"Slower"、またはデフォルトの "" に設定できます。

デフォルト設定では、使用する速度をシステムが決定できます。システムは以前のバージョンから値を選択できるため、この値により、この機能が存在しないバージョンからのアップグレードが可能になります。

他の値のいずれかを選択すると、デフォルトがオーバーライドされます。タイムアウトまたはハートビートの欠落が原因でリーダーの選出が多数発生し、システムが "" または "Standard" に設定されている場合は、ハードウェア速度を "Slower" に設定して、レイテンシーの増加に対するシステムの耐性を高めます。

3.7.1. ハードウェア速度許容値の変更
リンクのコピー

etcd のハードウェア速度許容値を変更するには、次の手順を実行します。

手順

次のコマンドを入力して、現在の値を確認します。
```
oc describe etcd/cluster | grep "Control Plane Hardware Speed"
```
```
$ oc describe etcd/cluster | grep "Control Plane Hardware Speed"
```
Copy to Clipboard Toggle word wrap
出力例
```
Control Plane Hardware Speed:  <VALUE>
```
```
Control Plane Hardware Speed:  <VALUE>
```
Copy to Clipboard Toggle word wrap
注記
出力が空の場合、フィールドは設定されていないため、デフォルト ("") として考慮される必要があります。

次のコマンドを入力して値を変更します。<value> を有効な値のいずれかに置き換えます (""、"Standard"、または "Slower")。

oc patch etcd/cluster --type=merge -p '{"spec": {"controlPlaneHardwareSpeed": "<value>"}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"controlPlaneHardwareSpeed": "<value>"}}'

Copy to Clipboard

Toggle word wrap

次の表は、各プロファイルのハートビート間隔とリーダー選出タイムアウトを示しています。これらの値は変更になる可能性があります。

Expand

プロファイル	ETCD_HEARTBEAT_INTERVAL	ETCD_LEADER_ELECTION_TIMEOUT
`""`	プラットフォームによって異なる	プラットフォームによって異なる
`Standard`	100	1000
`Slower`	500	2500

出力を確認します。

出力例

etcd.operator.openshift.io/cluster patched

etcd.operator.openshift.io/cluster patched

Copy to Clipboard

Toggle word wrap

有効な値以外の値を入力すると、エラー出力が表示されます。たとえば、"Faster" 値を入力すると、出力は次のようになります。

出力例

The Etcd "cluster" is invalid: spec.controlPlaneHardwareSpeed: Unsupported value: "Faster": supported values: "", "Standard", "Slower"

The Etcd "cluster" is invalid: spec.controlPlaneHardwareSpeed: Unsupported value: "Faster": supported values: "", "Standard", "Slower"

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、値が変更したことを確認します。
```
oc describe etcd/cluster | grep "Control Plane Hardware Speed"
```
```
$ oc describe etcd/cluster | grep "Control Plane Hardware Speed"
```
Copy to Clipboard Toggle word wrap
出力例
```
Control Plane Hardware Speed:  ""
```
```
Control Plane Hardware Speed:  ""
```
Copy to Clipboard Toggle word wrap

etcd Pod がロールアウトされるまで待ちます。

oc get pods -n openshift-etcd -w

$ oc get pods -n openshift-etcd -w

Copy to Clipboard

Toggle word wrap

次の出力は、master-0 の予期されるエントリーを示しています。続行する前に、すべてのマスターのステータスが 4/4 Running になるまで待ちます。

出力例

installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Pending             0          0s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Pending             0          0s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     ContainerCreating   0          0s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     ContainerCreating   0          1s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           1/1     Running             0          2s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Completed           0          34s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Completed           0          36s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Completed           0          36s
etcd-guard-ci-ln-qkgs94t-72292-9clnd-master-0            0/1     Running             0          26m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  4/4     Terminating         0          11m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  4/4     Terminating         0          11m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     Pending             0          0s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     Init:1/3            0          1s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     Init:2/3            0          2s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     PodInitializing     0          3s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  3/4     Running             0          4s
etcd-guard-ci-ln-qkgs94t-72292-9clnd-master-0            1/1     Running             0          26m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  3/4     Running             0          20s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  4/4     Running             0          20s

installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Pending             0          0s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Pending             0          0s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     ContainerCreating   0          0s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     ContainerCreating   0          1s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           1/1     Running             0          2s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Completed           0          34s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Completed           0          36s
installer-9-ci-ln-qkgs94t-72292-9clnd-master-0           0/1     Completed           0          36s
etcd-guard-ci-ln-qkgs94t-72292-9clnd-master-0            0/1     Running             0          26m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  4/4     Terminating         0          11m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  4/4     Terminating         0          11m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     Pending             0          0s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     Init:1/3            0          1s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     Init:2/3            0          2s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  0/4     PodInitializing     0          3s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  3/4     Running             0          4s
etcd-guard-ci-ln-qkgs94t-72292-9clnd-master-0            1/1     Running             0          26m
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  3/4     Running             0          20s
etcd-ci-ln-qkgs94t-72292-9clnd-master-0                  4/4     Running             0          20s

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して値を確認します。
```
oc describe -n openshift-etcd pod/<ETCD_PODNAME> | grep -e HEARTBEAT_INTERVAL -e ELECTION_TIMEOUT
```
```
$ oc describe -n openshift-etcd pod/<ETCD_PODNAME> | grep -e HEARTBEAT_INTERVAL -e ELECTION_TIMEOUT
```
Copy to Clipboard Toggle word wrap
注記
これらの値はデフォルトから変更されていない可能性があります。

3.8. OpenShift Container Platform の etcd 用に調整可能なタイマー項目
リンクのコピー

OpenShift Container Platform は、各プラットフォームに最適化された etcd タイマーを維持します。OpenShift Container Platform には、それぞれのプラットフォームプロバイダーに最適化された検証済みの値が定められています。platform=none または platform=metal が設定されている場合のデフォルトの etcd タイマーは次のとおりです。

- name: ETCD_ELECTION_TIMEOUT
  value: "1000"
  ...
- name: ETCD_HEARTBEAT_INTERVAL
  value: "100"

- name: ETCD_ELECTION_TIMEOUT
  value: "1000"
  ...
- name: ETCD_HEARTBEAT_INTERVAL
  value: "100"

Copy to Clipboard

Toggle word wrap

etcd の観点から見ると、2 つの重要な値は選出タイムアウトとハートビート間隔です。

ハートビートの間隔: リーダーがフォロワーに対して、自分がまだリーダーであることを通知する頻度。
選出タイムアウト: このタイムアウトは、フォロワーがリーダーになるまでの、ハートビートを受信しない期間です。

これらの値は、コントロールプレーンや etcd の全体像を示すものではありません。etcd クラスターは、ディスクのレイテンシーの影響を受けます。etcd は提案をログに保持する必要があるため、他のプロセスからのディスクアクティビティーによって fsync 待ち時間が長くなる可能性があります。その結果、etcd がハートビートを逃し、要求のタイムアウトや一時的なリーダーの喪失が発生する可能性があります。リーダーの喪失と再選出の間、Kubernetes API は、サービスに影響を与えるイベントやクラスターの不安定性を引き起こす要求を処理できません。

3.9. etcd データベースのサイズを決定して影響を把握する
リンクのコピー

etcd データベースのサイズは、ネットワークパーティションによってコントロールプレーンノードが一定期間分離され、通信が再確立された後にコントロールプレーンを再同期する必要がある場合に考慮すべき要素です。

etcd データベースのサイズはシステム内の Operator とアプリケーションに依存するため、そのサイズを制御するためのオプションは最小限しかありません。システムが動作するレイテンシー範囲を検討する場合は、etcd データベースのサイズごとに、同期またはデフラグの影響を考慮してください。

計画が必要な影響の種類は、次の 2 つの例を検討してください。

データベースサイズに基づく etcd デフラグ処理の効果の例: 1 GB の etcd データベースを 80 Mbit/s の低速 7200 RPM ディスクに書き込むには、約 1 分 40 秒かかります。このようなシナリオでは、デフラグ処理が完了するまでに、同じ時間 (またはそれ以上) かかります。
etcd 同期におけるデータベースサイズの影響の例: コントロールプレーンノードの 1 つが切断されている間に etcd データベースの 10% が変更された場合、再同期では少なくとも 100 MB を転送する必要があります。1 Gbps リンクで 100 MB を転送するには 800 ミリ秒かかります。Kubernetes API を使用した定期的なトランザクションを実行するクラスターでは、etcd データベースのサイズが大きくなるほど、ネットワークの不安定性が増し、コントロールプレーンの不安定性も生じます。

OpenShift Container Platform コンソールを使用するか、etcdctl ツールでコマンドを実行することで、etcd データベースのサイズを判断できます。

手順

OpenShift Container Platform コンソールでデータベースのサイズを確認するには、etcd ダッシュボードに移動して、etcd データベースのサイズを報告するプロットを表示します。

etcdctl ツールを使用してデータベースサイズを確認するには、次の 2 つのコマンドを入力します。

以下のコマンドを入力して Pod をリスト表示します。

oc get pods -n openshift-etcd -l app=etcd

# oc get pods -n openshift-etcd -l app=etcd

Copy to Clipboard

Toggle word wrap

出力例

NAME      READY   STATUS    RESTARTS   AGE
etcd-m0   4/4     Running   4          22h
etcd-m1   4/4     Running   4          22h
etcd-m2   4/4     Running   4          22h

NAME      READY   STATUS    RESTARTS   AGE
etcd-m0   4/4     Running   4          22h
etcd-m1   4/4     Running   4          22h
etcd-m2   4/4     Running   4          22h

Copy to Clipboard

Toggle word wrap

次のコマンドを入力し、出力でデータベースのサイズを確認します。

oc exec -t etcd-m0 -- etcdctl endpoint status -w simple | cut -d, -f 1,3,4

# oc exec -t etcd-m0 -- etcdctl endpoint status -w simple | cut -d, -f 1,3,4

Copy to Clipboard

Toggle word wrap

出力例

https://198.18.111.12:2379, 3.5.6, 1.1 GB
https://198.18.111.13:2379, 3.5.6, 1.1 GB
https://198.18.111.14:2379, 3.5.6, 1.1 GB

https://198.18.111.12:2379, 3.5.6, 1.1 GB
https://198.18.111.13:2379, 3.5.6, 1.1 GB
https://198.18.111.14:2379, 3.5.6, 1.1 GB

Copy to Clipboard

Toggle word wrap

3.10. etcd のデータベースサイズを増やす
リンクのコピー

各 etcd インスタンスのディスククォータをギビバイト (GiB) 単位で設定できます。etcd インスタンスにディスククォータを設定する場合は、8 から 32 までの整数値を指定できます。デフォルト値は 8 です。増加値のみ指定できます。

low space アラートが表示された場合は、ディスククォータを増やすことを推奨します。このアラートは、自動コンパクションおよびデフラグにもかかわらず、クラスターが大きすぎて etcd に収まらないことを示します。このアラートが表示された場合、etcd のスペースが不足すると書き込みが失敗するため、すぐにディスククォータを増やす必要があります。

ディスククォータを増やすことが推奨されるもう 1 つのシナリオは、excessive database growth アラートが発生した場合です。このアラートは、今後 4 時間以内にデータベースが大きくなりすぎる可能性があることを警告しています。このシナリオでは、最終的に low space アラートが表示されたり、書き込みが失敗したりしないように、ディスククォータを増やすことを検討してください。

ディスククォータを増やしても、指定したディスク領域はすぐには予約されません。代わりに、etcd は必要に応じてそのサイズまで拡張できます。etcd が、ディスククォータに指定した値よりも大きい専用ディスク上で実行されていることを確認します。

大規模な etcd データベースの場合、コントロールプレーンノードに追加のメモリーとストレージが必要です。API サーバーキャッシュを考慮する必要があるため、最小メモリー要件は etcd データベースの設定サイズの 3 倍以上になります。

重要

etcd のデータベースサイズを増やす機能は、テクノロジープレビュー機能のみです。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat は、実稼働環境でこれらを使用することを推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat テクノロジープレビュー機能のサポート範囲の詳細は、次のリンクを参照してください。

テクノロジープレビュー機能のサポート範囲

3.10.1. etcd データベースのサイズを変更する
リンクのコピー

etcd のデータベースサイズを変更するには、次の手順を実行します。

手順

次のコマンドを入力して、各 etcd インスタンスのディスククォータの現在の値を確認します。
```
oc describe etcd/cluster | grep "Backend Quota"
```
```
$ oc describe etcd/cluster | grep "Backend Quota"
```
Copy to Clipboard Toggle word wrap
出力例
```
Backend Quota Gi B: <value>
```
```
Backend Quota Gi B: <value>
```
Copy to Clipboard Toggle word wrap

次のコマンドを入力して、ディスククォータの値を変更します。

oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": <value>}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": <value>}}'

Copy to Clipboard

Toggle word wrap

出力例

etcd.operator.openshift.io/cluster patched

etcd.operator.openshift.io/cluster patched

Copy to Clipboard

Toggle word wrap

検証

次のコマンドを入力して、ディスククォータの新しい値が設定されていることを確認します。
```
oc describe etcd/cluster | grep "Backend Quota"
```
```
$ oc describe etcd/cluster | grep "Backend Quota"
```
Copy to Clipboard Toggle word wrap
etcd Operator は、新しい値を使用して etcd インスタンスを自動的にロールアウトします。

次のコマンドを入力して、etcd Pod が起動して実行されていることを確認します。

oc get pods -n openshift-etcd

$ oc get pods -n openshift-etcd

Copy to Clipboard

Toggle word wrap

次の出力は、予想されるエントリーを示しています。

出力例

NAME                                                   READY   STATUS      RESTARTS   AGE
etcd-ci-ln-b6kfsw2-72292-mzwbq-master-0                4/4     Running     0          39m
etcd-ci-ln-b6kfsw2-72292-mzwbq-master-1                4/4     Running     0          37m
etcd-ci-ln-b6kfsw2-72292-mzwbq-master-2                4/4     Running     0          41m
etcd-guard-ci-ln-b6kfsw2-72292-mzwbq-master-0          1/1     Running     0          51m
etcd-guard-ci-ln-b6kfsw2-72292-mzwbq-master-1          1/1     Running     0          49m
etcd-guard-ci-ln-b6kfsw2-72292-mzwbq-master-2          1/1     Running     0          54m
installer-5-ci-ln-b6kfsw2-72292-mzwbq-master-1         0/1     Completed   0          51m
installer-7-ci-ln-b6kfsw2-72292-mzwbq-master-0         0/1     Completed   0          46m
installer-7-ci-ln-b6kfsw2-72292-mzwbq-master-1         0/1     Completed   0          44m
installer-7-ci-ln-b6kfsw2-72292-mzwbq-master-2         0/1     Completed   0          49m
installer-8-ci-ln-b6kfsw2-72292-mzwbq-master-0         0/1     Completed   0          40m
installer-8-ci-ln-b6kfsw2-72292-mzwbq-master-1         0/1     Completed   0          38m
installer-8-ci-ln-b6kfsw2-72292-mzwbq-master-2         0/1     Completed   0          42m
revision-pruner-7-ci-ln-b6kfsw2-72292-mzwbq-master-0   0/1     Completed   0          43m
revision-pruner-7-ci-ln-b6kfsw2-72292-mzwbq-master-1   0/1     Completed   0          43m
revision-pruner-7-ci-ln-b6kfsw2-72292-mzwbq-master-2   0/1     Completed   0          43m
revision-pruner-8-ci-ln-b6kfsw2-72292-mzwbq-master-0   0/1     Completed   0          42m
revision-pruner-8-ci-ln-b6kfsw2-72292-mzwbq-master-1   0/1     Completed   0          42m
revision-pruner-8-ci-ln-b6kfsw2-72292-mzwbq-master-2   0/1     Completed   0          42m

NAME                                                   READY   STATUS      RESTARTS   AGE
etcd-ci-ln-b6kfsw2-72292-mzwbq-master-0                4/4     Running     0          39m
etcd-ci-ln-b6kfsw2-72292-mzwbq-master-1                4/4     Running     0          37m
etcd-ci-ln-b6kfsw2-72292-mzwbq-master-2                4/4     Running     0          41m
etcd-guard-ci-ln-b6kfsw2-72292-mzwbq-master-0          1/1     Running     0          51m
etcd-guard-ci-ln-b6kfsw2-72292-mzwbq-master-1          1/1     Running     0          49m
etcd-guard-ci-ln-b6kfsw2-72292-mzwbq-master-2          1/1     Running     0          54m
installer-5-ci-ln-b6kfsw2-72292-mzwbq-master-1         0/1     Completed   0          51m
installer-7-ci-ln-b6kfsw2-72292-mzwbq-master-0         0/1     Completed   0          46m
installer-7-ci-ln-b6kfsw2-72292-mzwbq-master-1         0/1     Completed   0          44m
installer-7-ci-ln-b6kfsw2-72292-mzwbq-master-2         0/1     Completed   0          49m
installer-8-ci-ln-b6kfsw2-72292-mzwbq-master-0         0/1     Completed   0          40m
installer-8-ci-ln-b6kfsw2-72292-mzwbq-master-1         0/1     Completed   0          38m
installer-8-ci-ln-b6kfsw2-72292-mzwbq-master-2         0/1     Completed   0          42m
revision-pruner-7-ci-ln-b6kfsw2-72292-mzwbq-master-0   0/1     Completed   0          43m
revision-pruner-7-ci-ln-b6kfsw2-72292-mzwbq-master-1   0/1     Completed   0          43m
revision-pruner-7-ci-ln-b6kfsw2-72292-mzwbq-master-2   0/1     Completed   0          43m
revision-pruner-8-ci-ln-b6kfsw2-72292-mzwbq-master-0   0/1     Completed   0          42m
revision-pruner-8-ci-ln-b6kfsw2-72292-mzwbq-master-1   0/1     Completed   0          42m
revision-pruner-8-ci-ln-b6kfsw2-72292-mzwbq-master-2   0/1     Completed   0          42m

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、etcd Pod のディスククォータ値が更新されていることを確認します。
```
oc describe -n openshift-etcd pod/<etcd_podname> | grep "ETCD_QUOTA_BACKEND_BYTES"
```
```
$ oc describe -n openshift-etcd pod/<etcd_podname> | grep "ETCD_QUOTA_BACKEND_BYTES"
```
Copy to Clipboard Toggle word wrap
値はデフォルト値の 8 から変更されていない可能性があります。
出力例
```
ETCD_QUOTA_BACKEND_BYTES:                               8589934592
```
```
ETCD_QUOTA_BACKEND_BYTES:                               8589934592
```
Copy to Clipboard Toggle word wrap
注記
設定する値は GiB 単位の整数ですが、出力に表示される値はバイトに変換されます。

3.10.2. トラブルシューティング
リンクのコピー

etcd のデータベースサイズを増やそうとしたときに問題が発生した場合、次のトラブルシューティング手順が役立つ場合があります。

3.10.2.1. 値が小さすぎる
リンクのコピー

指定した値が 8 未満の場合、次のエラーメッセージが表示されます。

oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": 5}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": 5}}'

Copy to Clipboard

Toggle word wrap

エラーメッセージの例

The Etcd "cluster" is invalid:
* spec.backendQuotaGiB: Invalid value: 5: spec.backendQuotaGiB in body should be greater than or equal to 8
* spec.backendQuotaGiB: Invalid value: "integer": etcd backendQuotaGiB may not be decreased

The Etcd "cluster" is invalid:
* spec.backendQuotaGiB: Invalid value: 5: spec.backendQuotaGiB in body should be greater than or equal to 8
* spec.backendQuotaGiB: Invalid value: "integer": etcd backendQuotaGiB may not be decreased

Copy to Clipboard

Toggle word wrap

この問題を解決するには、8 - 32 の間の整数を指定します。

3.10.2.2. 値が大きすぎる
リンクのコピー

指定した値が 32 より大きい場合、次のエラーメッセージが表示されます。

oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": 64}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": 64}}'

Copy to Clipboard

Toggle word wrap

エラーメッセージの例

The Etcd "cluster" is invalid: spec.backendQuotaGiB: Invalid value: 64: spec.backendQuotaGiB in body should be less than or equal to 32

The Etcd "cluster" is invalid: spec.backendQuotaGiB: Invalid value: 64: spec.backendQuotaGiB in body should be less than or equal to 32

Copy to Clipboard

Toggle word wrap

この問題を解決するには、8 - 32 の間の整数を指定します。

3.10.2.3. 価値が下がっている
リンクのコピー

値が 8 - 32 の有効な値に設定されている場合、値を減らすことはできません。減らそうとすると、エラーメッセージが表示されます。

次のコマンドを入力して現在の値を確認します。
```
oc describe etcd/cluster | grep "Backend Quota"
```
```
$ oc describe etcd/cluster | grep "Backend Quota"
```
Copy to Clipboard Toggle word wrap
出力例
```
Backend Quota Gi B: 10
```
```
Backend Quota Gi B: 10
```
Copy to Clipboard Toggle word wrap

次のコマンドを入力してディスククォータ値を減らします。

oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": 8}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"backendQuotaGiB": 8}}'

Copy to Clipboard

Toggle word wrap

エラーメッセージの例

The Etcd "cluster" is invalid: spec.backendQuotaGiB: Invalid value: "integer": etcd backendQuotaGiB may not be decreased

The Etcd "cluster" is invalid: spec.backendQuotaGiB: Invalid value: "integer": etcd backendQuotaGiB may not be decreased

Copy to Clipboard

Toggle word wrap

この問題を解決するには、10 より大きい整数を指定します。

3.11. コントロールプレーンノード間のネットワークジッターの測定
リンクのコピー

ハートビート間隔の値は、メンバー間の平均往復時間 (RTT) の最大値にほぼ等しく、通常は往復時間の約 1.5 倍になります。OpenShift Container Platform のデフォルトのハートビート間隔は 100 ミリ秒であるため、コントロールプレーンノード間の推奨 RTT は約 33 ミリ秒未満、最大値は 66 ミリ秒未満 (66 ミリ秒 × 1.5 = 99 ミリ秒) になります。詳細は、「etcd のチューニングパラメーターの設定」を参照してください。ネットワークレイテンシーがこれより高いと、サービスに影響を与えるイベントが発生し、クラスターが不安定になる可能性があります。

ネットワークレイテ因子ーは、以下を含む多くの要因の影響を受けます。

銅線、光ファイバー、無線、衛星などのトランスポートネットワークテクノロジー
トランスポートネットワーク内のネットワークデバイスの数と品質

組織内のネットワークレイテンシーと、通信プロバイダーが公開する商用レイテンシー (月間 IP レイテンシー統計など) の比較は、優れた評価基準として使用できます。

より正確に研鑽するためには、ネットワークジッターによるネットワークレイテンシーを考慮してください。ネットワークジッター とは、ネットワークレイテンシーの変動、より具体的には受信パケットのレイテンシーの変動です。理想的なネットワーク条件下では、ジッターは限りなくゼロに近くなります。ネットワークジッターは etcd のネットワークレイテンシーの計算に影響します。これは、時間の経過に伴う実際のネットワークレイテンシーは RTT にジッターを加算または減算したものになるためです。たとえば、最大レイテンシーが 80 ミリ秒でジッターが 30 ミリ秒のネットワークでは、レイテンシーが 110 ミリ秒になります。これは、etcd がハートビートを失っていることを意味し、要求のタイムアウトと一時的なリーダーの不在が発生します。リーダーの喪失と再選出の間、Kubernetes API は、サービスに影響を与えるイベントやクラスターの不安定性を引き起こす要求を処理できません。

すべてのコントロールプレーンノード間のネットワークジッターを測定することが重要です。そのためには、UDP モードで iPerf3 ツールを使用できます。

前提条件

独自の iPerf イメージをビルドした。詳細は、Red Hat ナレッジベースの以下の記事を参照してください。
- Testing Network Bandwidth in OpenShift using iPerf Container
- How to run iPerf network performance test in OpenShift 4

手順

いずれか 1 つのコントロールプレーンノードに接続し、iPerf コンテナーをホストネットワークモードで iPerf サーバーとして実行します。サーバーモードで実行している場合、ツールは TCP および UDP テストを受け入れます。次のコマンドを、<iperf_image> は iPerf イメージに置き換えて入力します。
```
podman run -ti --rm --net host <iperf_image> iperf3 -s
```
```
# podman run -ti --rm --net host <iperf_image> iperf3 -s
```
Copy to Clipboard Toggle word wrap
別のコントロールプレーンノードに接続し、次のコマンドを入力して iPerf を UDP クライアントモードで実行します。
```
podman run -ti --rm --net host <iperf_image> iperf3 -u -c <node_iperf_server> -t 300
```
```
# podman run -ti --rm --net host <iperf_image> iperf3 -u -c <node_iperf_server> -t 300
```
Copy to Clipboard Toggle word wrap
デフォルトのテストは 10 秒間実行され、最後にクライアント出力にクライアントの観点から見た平均ジッターが表示されます。

次のコマンドを入力してデバッグノードモードを実行します。

oc debug node/m1

# oc debug node/m1

Copy to Clipboard

Toggle word wrap

出力例

Starting pod/m1-debug ...
To use host binaries, run `chroot /host`
Pod IP: 198.18.111.13
If you don't see a command prompt, try pressing enter.

Starting pod/m1-debug ...
To use host binaries, run `chroot /host`
Pod IP: 198.18.111.13
If you don't see a command prompt, try pressing enter.

Copy to Clipboard

Toggle word wrap

次のコマンドを入力します。

chroot /host

sh-4.4# chroot /host

Copy to Clipboard

Toggle word wrap

podman run -ti --rm --net host <iperf_image> iperf3 -u -c m0

sh-4.4# podman run -ti --rm --net host <iperf_image> iperf3 -u -c m0

Copy to Clipboard

Toggle word wrap

出力例

Connecting to host m0, port 5201
[  5] local 198.18.111.13 port 60878 connected to 198.18.111.12 port 5201
[ ID] Interval           Transfer     Bitrate         Total Datagrams
[  5]   0.00-1.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   1.00-2.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   2.00-3.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   3.00-4.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   4.00-5.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   5.00-6.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   6.00-7.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   7.00-8.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   8.00-9.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   9.00-10.00  sec   129 KBytes  1.05 Mbits/sec  91
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Jitter    Lost/Total Datagrams
[  5]   0.00-10.00  sec  1.25 MBytes  1.05 Mbits/sec  0.000 ms  0/906 (0%)  sender
[  5]   0.00-10.04  sec  1.25 MBytes  1.05 Mbits/sec  1.074 ms  0/906 (0%)  receiver

iperf Done.

Connecting to host m0, port 5201
[  5] local 198.18.111.13 port 60878 connected to 198.18.111.12 port 5201
[ ID] Interval           Transfer     Bitrate         Total Datagrams
[  5]   0.00-1.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   1.00-2.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   2.00-3.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   3.00-4.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   4.00-5.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   5.00-6.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   6.00-7.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   7.00-8.00   sec   129 KBytes  1.05 Mbits/sec  91
[  5]   8.00-9.00   sec   127 KBytes  1.04 Mbits/sec  90
[  5]   9.00-10.00  sec   129 KBytes  1.05 Mbits/sec  91
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Jitter    Lost/Total Datagrams
[  5]   0.00-10.00  sec  1.25 MBytes  1.05 Mbits/sec  0.000 ms  0/906 (0%)  sender
[  5]   0.00-10.04  sec  1.25 MBytes  1.05 Mbits/sec  1.074 ms  0/906 (0%)  receiver

iperf Done.

Copy to Clipboard

Toggle word wrap

iPerf サーバーでは、出力に 1 秒間隔ごとのジッターが表示されます。平均値は最後に表示されます。このテストの目的は、テスト中に発生する最大ジッターを特定することです。その際には、無効な測定値が含まれている可能性があるため最初の 1 秒の出力を無視します。以下のコマンドを入力します。
```
oc debug node/m0
```
```
# oc debug node/m0
```
Copy to Clipboard Toggle word wrap
出力例
```
Starting pod/m0-debug ...
To use host binaries, run `chroot /host`
Pod IP: 198.18.111.12
If you don't see a command prompt, try pressing enter.
```
```
Starting pod/m0-debug ...
To use host binaries, run `chroot /host`
Pod IP: 198.18.111.12
If you don't see a command prompt, try pressing enter.
```
Copy to Clipboard Toggle word wrap

次のコマンドを入力します。

chroot /host

sh-4.4# chroot /host

Copy to Clipboard

Toggle word wrap

podman run -ti --rm --net host <iperf_image> iperf3 -s

sh-4.4# podman run -ti --rm --net host <iperf_image> iperf3 -s

Copy to Clipboard

Toggle word wrap

出力例

-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 198.18.111.13, port 44136
[  5] local 198.18.111.12 port 5201 connected to 198.18.111.13 port 60878
[ ID] Interval           Transfer     Bitrate         Jitter    Lost/Total Datagrams
[  5]   0.00-1.00   sec   124 KBytes  1.02 Mbits/sec  4.763 ms  0/88 (0%)
[  5]   1.00-2.00   sec   127 KBytes  1.04 Mbits/sec  4.735 ms  0/90 (0%)
[  5]   2.00-3.00   sec   129 KBytes  1.05 Mbits/sec  0.568 ms  0/91 (0%)
[  5]   3.00-4.00   sec   127 KBytes  1.04 Mbits/sec  2.443 ms  0/90 (0%)
[  5]   4.00-5.00   sec   129 KBytes  1.05 Mbits/sec  1.372 ms  0/91 (0%)
[  5]   5.00-6.00   sec   127 KBytes  1.04 Mbits/sec  2.769 ms  0/90 (0%)
[  5]   6.00-7.00   sec   129 KBytes  1.05 Mbits/sec  2.393 ms  0/91 (0%)
[  5]   7.00-8.00   sec   127 KBytes  1.04 Mbits/sec  0.883 ms  0/90 (0%)
[  5]   8.00-9.00   sec   129 KBytes  1.05 Mbits/sec  0.594 ms  0/91 (0%)
[  5]   9.00-10.00  sec   127 KBytes  1.04 Mbits/sec  0.953 ms  0/90 (0%)
[  5]  10.00-10.04  sec  5.66 KBytes  1.30 Mbits/sec  1.074 ms  0/4 (0%)
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Jitter    Lost/Total Datagrams
[  5]   0.00-10.04  sec  1.25 MBytes  1.05 Mbits/sec  1.074 ms  0/906 (0%)  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 198.18.111.13, port 44136
[  5] local 198.18.111.12 port 5201 connected to 198.18.111.13 port 60878
[ ID] Interval           Transfer     Bitrate         Jitter    Lost/Total Datagrams
[  5]   0.00-1.00   sec   124 KBytes  1.02 Mbits/sec  4.763 ms  0/88 (0%)
[  5]   1.00-2.00   sec   127 KBytes  1.04 Mbits/sec  4.735 ms  0/90 (0%)
[  5]   2.00-3.00   sec   129 KBytes  1.05 Mbits/sec  0.568 ms  0/91 (0%)
[  5]   3.00-4.00   sec   127 KBytes  1.04 Mbits/sec  2.443 ms  0/90 (0%)
[  5]   4.00-5.00   sec   129 KBytes  1.05 Mbits/sec  1.372 ms  0/91 (0%)
[  5]   5.00-6.00   sec   127 KBytes  1.04 Mbits/sec  2.769 ms  0/90 (0%)
[  5]   6.00-7.00   sec   129 KBytes  1.05 Mbits/sec  2.393 ms  0/91 (0%)
[  5]   7.00-8.00   sec   127 KBytes  1.04 Mbits/sec  0.883 ms  0/90 (0%)
[  5]   8.00-9.00   sec   129 KBytes  1.05 Mbits/sec  0.594 ms  0/91 (0%)
[  5]   9.00-10.00  sec   127 KBytes  1.04 Mbits/sec  0.953 ms  0/90 (0%)
[  5]  10.00-10.04  sec  5.66 KBytes  1.30 Mbits/sec  1.074 ms  0/4 (0%)
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Jitter    Lost/Total Datagrams
[  5]   0.00-10.04  sec  1.25 MBytes  1.05 Mbits/sec  1.074 ms  0/906 (0%)  receiver
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------

Copy to Clipboard

Toggle word wrap

算出したジッターをネットワークレイテンシーのペナルティとして追加します。たとえば、ネットワークレイテンシーが 80 ミリ秒で、ジッターが 30 ミリ秒の場合、コントロールプレーンについては、有効なネットワークレイテンシーを 110 ミリ秒と見なします。この例では、その値が 100 ミリ秒のしきい値を超え、システムはハートビートを受信しません。
etcd のネットワークレイテンシーを計算する場合は、実効ネットワークレイテンシー (次の式の合計) を使用します。
RTT + jitter
平均ジッター値を使用してペナルティを計算できる可能性がありますが、etcd ハートビートタイマーが次の式の合計よりも小さい場合、クラスターは断続的にハートビートを受信しない可能性があります。
RTT + max(jitter)
代わりに、回復力の高いデプロイメントのために、99 パーセンタイルまたは最大ジッター値の使用を検討してください。
実効ネットワークレイテンシー = RTT + max(jitter)

3.12. etcd ピアの往復時間がパフォーマンスに与える影響
リンクのコピー

etcd ピアの復時間は、メンバー間で何かをどれだけ速く複製できるかを示すエンドツーエンドのテストメトリクスです。これは、etcd がすべての etcd メンバー間でクライアント要求の複製を完了するまでのレイテンシーを示します。etcd ピアの往復時間は、ネットワークの往復時間とは異なります。

OpenShift Container Platform コンソールのダッシュボードで、さまざまな etcd メトリクスを監視できます。コンソールで、Observe → Dashboards をクリックし、ドロップダウンリストで etcd を選択します。

etcd ダッシュボードの端のほうに、etcd ピアの往復時間をまとめたプロットがあります。

注記

これらの etcd メトリクスは、Prometheus の OpenShift メトリクスシステムによって収集されます。CLI からこれらにアクセスするには、Red Hat ナレッジベースのソリューション How to query from the command line Prometheus statistics に従います。

# Get token to connect to Prometheus
SECRET=$(oc get secret -n openshift-user-workload-monitoring | grep  prometheus-user-workload-token | head -n 1 | awk '{print $1 }')
export TOKEN=$(oc get secret $SECRET -n openshift-user-workload-monitoring -o json | jq -r '.data.token' | base64 -d)
export THANOS_QUERIER_HOST=$(oc get route thanos-querier -n openshift-monitoring -o json | jq -r '.spec.host')

# Get token to connect to Prometheus
SECRET=$(oc get secret -n openshift-user-workload-monitoring | grep  prometheus-user-workload-token | head -n 1 | awk '{print $1 }')
export TOKEN=$(oc get secret $SECRET -n openshift-user-workload-monitoring -o json | jq -r '.data.token' | base64 -d)
export THANOS_QUERIER_HOST=$(oc get route thanos-querier -n openshift-monitoring -o json | jq -r '.spec.host')

Copy to Clipboard

Toggle word wrap

クエリーは URL エンコードする必要があります。次の例は、etcd がメンバー間でクライアント要求の複製を完了するまでの往復時間 (秒単位) を報告するメトリクスを取得する方法を示しています。

prometheus query
query="histogram_quantile(0.99, rate(etcd_network_peer_round_trip_time_seconds_bucket[5m]))"

urlencoded query
encoded_query=$(printf "%s" $query |jq -sRr @uri)

querying the OpenShift metrics service
curl -s -X GET -k -H "Authorization: Bearer $TOKEN" "https://$THANOS_QUERIER_HOST/api/v1/query?query=$encoded_query" | jq '.data.result[] | .metric.pod,.value[1]'

"etcd-m2"
"0.09318400000000004"   # example ~93ms
"etcd-m0"
"0.050688"              # example ~51ms
"etcd-m1"
"0.050688"              # example ~51ms

# prometheus query
query="histogram_quantile(0.99, rate(etcd_network_peer_round_trip_time_seconds_bucket[5m]))"

# urlencoded query
encoded_query=$(printf "%s" $query |jq -sRr @uri)

# querying the OpenShift metrics service
curl -s -X GET -k -H "Authorization: Bearer $TOKEN" "https://$THANOS_QUERIER_HOST/api/v1/query?query=$encoded_query" | jq '.data.result[] | .metric.pod,.value[1]'

"etcd-m2"
"0.09318400000000004"   # example ~93ms
"etcd-m0"
"0.050688"              # example ~51ms
"etcd-m1"
"0.050688"              # example ~51ms

Copy to Clipboard

Toggle word wrap

以下のメトリクスも etcd のパフォーマンスを把握するために使用できます。

etcd_disk_wal_fsync_duration_seconds_bucket: etcd WAL fsync の継続時間を報告します。
etcd_disk_backend_commit_duration_seconds_bucket: etcd バックエンドのコミットレイテンシーの継続時間を報告します。
etcd_server_leader_changes_seen_total: リーダーの変更を報告します。

3.13. 環境に対する Kubernetes API トランザクションレートの決定
リンクのコピー

ストレッチコントロールプレーンを使用している場合、Kubernetes API トランザクションレートは、特定のデプロイメントの特性によって異なります。具体的には、次の要因の組み合わせにより決まります。

etcd ディスクのレイテンシー
etcd の往復時間
API に書き込まれるオブジェクトのサイズ

そのため、ストレッチコントロールプレーンを使用する場合、クラスター管理者は自分たちの環境で維持可能なトランザクションレートを把握するために、環境のテストを行う必要があります。これには、kube-burner ツールを使用できます。バイナリーには、OpenShift クラスターをテストするためのラッパー kube-burner-ocp が含まれています。kube-burner-ocp を使用して、クラスターまたはノードの密度をテストできます。コントロールプレーンをテストするために、kube-burner-ocp には、cluster-density、cluster-density-v2、and cluster-density-ms の 3 つのワークロードプロファイルがあります。各ワークロードプロファイルは、コントロールプレーンをロードするように設計された一連のリソースを作成します。各プロファイルの詳細は、kube-burner-ocp ワークロードのドキュメントを参照してください。

手順

リソースを作成および削除するコマンドを入力します。次の例は、20 分以内にリソースを作成および削除するコマンドを示しています。
```
kube-burner ocp cluster-density-ms --churn-duration 20m --churn-delay 0s --iterations 10 --timeout 30m
```
```
# kube-burner ocp cluster-density-ms --churn-duration 20m --churn-delay 0s --iterations 10 --timeout 30m
```
Copy to Clipboard Toggle word wrap
OpenShift Container Platform コンソールは、関連するすべての API パフォーマンス情報を表示するダッシュボードを提供します。API パフォーマンス情報にアクセスするには、Observe → Dashboards をクリックし、Dashboards メニューで API Performance をクリックします。
実行中に、OpenShift Container Platform コンソールで API パフォーマンスダッシュボードを関しします。その場合は Observe → Dashboards をクリックし、Dashboards メニューで API Performance をクリックします。
ダッシュボードでは、負荷時にコントロールプレーンがどのように応答するか、および、読み取りと書き込みごとに、さまざまな操作と要求レートを実行した際に達成できる 99 パーセンタイルトランザクションレートを確認します。この情報と組織のワークロードに関する知識を使用して、特定のストレッチコントロールプレーンのデプロイメントのために組織がクラスターに投入できる負荷を判断します。

第4章 etcd データのバックアップと復元
リンクのコピー

4.1. etcd データのバックアップと復元
リンクのコピー

OpenShift Container Platform のキー値ストアとして、etcd はすべてのリソースオブジェクトの状態を保持します。

クラスターの etcd データを定期的にバックアップし、セキュアな場所 (理想的には OpenShift Container Platform 環境の外部) に保存します。インストールの 24 時間後に行われる最初の証明書のローテーションが完了するまで etcd のバックアップを実行することはできません。ローテーションの完了前に実行すると、バックアップに期限切れの証明書が含まれることになります。etcd スナップショットは I/O コストが高いため、ピーク使用時間以外に etcd バックアップを取得することも推奨します。

クラスターを更新する前に、必ず etcd のバックアップを作成してください。クラスターを復元するときに、同じ z-stream リリースから取得した etcd バックアップを使用する必要があるため、更新する前にバックアップを作成することが重要です。たとえば、OpenShift Container Platform 4.17.5 クラスターでは、4.17.5 から取得した etcd バックアップを使用する必要があります。

重要

コントロールプレーンホストでバックアップスクリプトの単一の呼び出しを実行して、クラスターの etcd データをバックアップします。各コントロールプレーンホストのバックアップを取得しないでください。

etcd のバックアップを作成した後に、クラスターの直前の状態への復元を実行できます。

4.1.1. etcd データのバックアップ
リンクのコピー

以下の手順に従って、etcd スナップショットを作成し、静的 Pod のリソースをバックアップして etcd データをバックアップします。このバックアップは保存でき、etcd を復元する必要がある場合に後で使用することができます。

重要

単一のコントロールプレーンホストからのバックアップのみを保存します。クラスター内の各コントロールプレーンホストからのバックアップは取得しないでください。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
クラスター全体のプロキシーが有効になっているかどうかを確認している。
ヒント
oc get proxy cluster -o yaml の出力を確認して、プロキシーが有効にされているかどうかを確認できます。プロキシーは、httpProxy、httpsProxy、および noProxy フィールドに値が設定されている場合に有効にされます。

手順

コントロールプレーンノードの root としてデバッグセッションを開始します。
```
oc debug --as-root node/<node_name>
```
```
$ oc debug --as-root node/<node_name>
```
Copy to Clipboard Toggle word wrap
デバッグシェルで root ディレクトリーを /host に変更します。
```
chroot /host
```
```
sh-4.4# chroot /host
```
Copy to Clipboard Toggle word wrap
クラスター全体のプロキシーが有効になっている場合は、次のコマンドを実行して、NO_PROXY、HTTP_PROXY、および HTTPS_PROXY 環境変数をエクスポートします。
```
export HTTP_PROXY=http://<your_proxy.example.com>:8080
```
```
$ export HTTP_PROXY=http://<your_proxy.example.com>:8080
```
Copy to Clipboard Toggle word wrap
```
export HTTPS_PROXY=https://<your_proxy.example.com>:8080
```
```
$ export HTTPS_PROXY=https://<your_proxy.example.com>:8080
```
Copy to Clipboard Toggle word wrap
```
export NO_PROXY=<example.com>
```
```
$ export NO_PROXY=<example.com>
```
Copy to Clipboard Toggle word wrap

デバッグシェルで cluster-backup.sh スクリプトを実行し、バックアップの保存先となる場所を渡します。

ヒント

cluster-backup.sh スクリプトは etcd Cluster Operator のコンポーネントとして維持され、etcdctl snapshot save コマンドに関連するラッパーです。

/usr/local/bin/cluster-backup.sh /home/core/assets/backup

sh-4.4# /usr/local/bin/cluster-backup.sh /home/core/assets/backup

Copy to Clipboard

Toggle word wrap

スクリプトの出力例

found latest kube-apiserver: /etc/kubernetes/static-pod-resources/kube-apiserver-pod-6
found latest kube-controller-manager: /etc/kubernetes/static-pod-resources/kube-controller-manager-pod-7
found latest kube-scheduler: /etc/kubernetes/static-pod-resources/kube-scheduler-pod-6
found latest etcd: /etc/kubernetes/static-pod-resources/etcd-pod-3
ede95fe6b88b87ba86a03c15e669fb4aa5bf0991c180d3c6895ce72eaade54a1
etcdctl version: 3.4.14
API version: 3.4
{"level":"info","ts":1624647639.0188997,"caller":"snapshot/v3_snapshot.go:119","msg":"created temporary db file","path":"/home/core/assets/backup/snapshot_2021-06-25_190035.db.part"}
{"level":"info","ts":"2021-06-25T19:00:39.030Z","caller":"clientv3/maintenance.go:200","msg":"opened snapshot stream; downloading"}
{"level":"info","ts":1624647639.0301006,"caller":"snapshot/v3_snapshot.go:127","msg":"fetching snapshot","endpoint":"https://10.0.0.5:2379"}
{"level":"info","ts":"2021-06-25T19:00:40.215Z","caller":"clientv3/maintenance.go:208","msg":"completed snapshot read; closing"}
{"level":"info","ts":1624647640.6032252,"caller":"snapshot/v3_snapshot.go:142","msg":"fetched snapshot","endpoint":"https://10.0.0.5:2379","size":"114 MB","took":1.584090459}
{"level":"info","ts":1624647640.6047094,"caller":"snapshot/v3_snapshot.go:152","msg":"saved","path":"/home/core/assets/backup/snapshot_2021-06-25_190035.db"}
Snapshot saved at /home/core/assets/backup/snapshot_2021-06-25_190035.db
{"hash":3866667823,"revision":31407,"totalKey":12828,"totalSize":114446336}
snapshot db and kube resources are successfully saved to /home/core/assets/backup

found latest kube-apiserver: /etc/kubernetes/static-pod-resources/kube-apiserver-pod-6
found latest kube-controller-manager: /etc/kubernetes/static-pod-resources/kube-controller-manager-pod-7
found latest kube-scheduler: /etc/kubernetes/static-pod-resources/kube-scheduler-pod-6
found latest etcd: /etc/kubernetes/static-pod-resources/etcd-pod-3
ede95fe6b88b87ba86a03c15e669fb4aa5bf0991c180d3c6895ce72eaade54a1
etcdctl version: 3.4.14
API version: 3.4
{"level":"info","ts":1624647639.0188997,"caller":"snapshot/v3_snapshot.go:119","msg":"created temporary db file","path":"/home/core/assets/backup/snapshot_2021-06-25_190035.db.part"}
{"level":"info","ts":"2021-06-25T19:00:39.030Z","caller":"clientv3/maintenance.go:200","msg":"opened snapshot stream; downloading"}
{"level":"info","ts":1624647639.0301006,"caller":"snapshot/v3_snapshot.go:127","msg":"fetching snapshot","endpoint":"https://10.0.0.5:2379"}
{"level":"info","ts":"2021-06-25T19:00:40.215Z","caller":"clientv3/maintenance.go:208","msg":"completed snapshot read; closing"}
{"level":"info","ts":1624647640.6032252,"caller":"snapshot/v3_snapshot.go:142","msg":"fetched snapshot","endpoint":"https://10.0.0.5:2379","size":"114 MB","took":1.584090459}
{"level":"info","ts":1624647640.6047094,"caller":"snapshot/v3_snapshot.go:152","msg":"saved","path":"/home/core/assets/backup/snapshot_2021-06-25_190035.db"}
Snapshot saved at /home/core/assets/backup/snapshot_2021-06-25_190035.db
{"hash":3866667823,"revision":31407,"totalKey":12828,"totalSize":114446336}
snapshot db and kube resources are successfully saved to /home/core/assets/backup

Copy to Clipboard

Toggle word wrap

この例では、コントロールプレーンホストの /home/core/assets/backup/ ディレクトリーにファイルが 2 つ作成されます。

snapshot_<datetimestamp>.db: このファイルは etcd スナップショットです。cluster-backup.sh スクリプトで、その有効性を確認します。
static_kuberesources_<datetimestamp>.tar.gz: このファイルには、静的 Pod のリソースが含まれます。etcd 暗号化が有効にされている場合、etcd スナップショットの暗号化キーも含まれます。
注記
etcd 暗号化が有効にされている場合、セキュリティー上の理由から、この 2 つ目のファイルを etcd スナップショットとは別に保存することが推奨されます。ただし、このファイルは etcd スナップショットから復元するために必要になります。
etcd 暗号化はキーではなく値のみを暗号化することに注意してください。つまり、リソースタイプ、namespace、およびオブジェクト名は暗号化されません。

4.1.2. 自動 etcd バックアップの作成
リンクのコピー

etcd の自動バックアップ機能は、繰り返しバックアップとシングルバックアップの両方をサポートします。繰り返しバックアップでは、ジョブがトリガーされるたびにシングルバックアップを開始する cron ジョブが作成されます。

重要

etcd バックアップの自動化はテクノロジープレビュー機能です。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat は、実稼働環境でこれらを使用することを推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat テクノロジープレビュー機能のサポート範囲の詳細は、次のリンクを参照してください。

テクノロジープレビュー機能のサポート範囲

etcd の自動バックアップを有効にするには、次の手順を実行します。

警告

クラスターで TechPreviewNoUpgrade 機能セットを有効にすると、マイナーバージョンの更新ができなくなります。TechPreviewNoUpgrade 機能セットは無効にできません。実稼働クラスターではこの機能セットを有効にしないでください。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
OpenShift CLI (oc) にアクセスできる。

手順

次の内容で、enable-tech-preview-no-upgrade.yaml という名前の FeatureGate カスタムリソース (CR) ファイルを作成します。

apiVersion: config.openshift.io/v1
kind: FeatureGate
metadata:
  name: cluster
spec:
  featureSet: TechPreviewNoUpgrade

apiVersion: config.openshift.io/v1
kind: FeatureGate
metadata:
  name: cluster
spec:
  featureSet: TechPreviewNoUpgrade

Copy to Clipboard

Toggle word wrap

CR を適用し、自動バックアップを有効にします。
```
oc apply -f enable-tech-preview-no-upgrade.yaml
```
```
$ oc apply -f enable-tech-preview-no-upgrade.yaml
```
Copy to Clipboard Toggle word wrap
関連する API を有効にするのに時間がかかります。次のコマンドを実行して、カスタムリソース定義 (CRD) が作成されたことを確認します。
```
oc get crd | grep backup
```
```
$ oc get crd | grep backup
```
Copy to Clipboard Toggle word wrap
出力例
```
backups.config.openshift.io 2023-10-25T13:32:43Z
etcdbackups.operator.openshift.io 2023-10-25T13:32:04Z
```
```
backups.config.openshift.io 2023-10-25T13:32:43Z
etcdbackups.operator.openshift.io 2023-10-25T13:32:04Z
```
Copy to Clipboard Toggle word wrap

4.1.2.1. 単一の自動化された etcd バックアップの作成
リンクのコピー

次の手順でカスタムリソース (CR) を作成して適用することで、シングル etcd バックアップを作成します。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
OpenShift CLI (oc) にアクセスできる。

手順

動的にプロビジョニングされたストレージが利用可能な場合は、次の手順を実行して、単一の自動 etcd バックアップを作成します。

次の例のような内容で、etcd-backup-pvc.yaml という名前の永続ボリューム要求 (PVC) を作成します。

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
  namespace: openshift-etcd
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 200Gi 
  volumeMode: Filesystem

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
  namespace: openshift-etcd
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 200Gi


  volumeMode: Filesystem

Copy to Clipboard

Toggle word wrap

1 1: PVC に利用できるストレージの量。この値は、要件に合わせて調整します。

以下のコマンドを実行して PVC を適用します。
```
oc apply -f etcd-backup-pvc.yaml
```
```
$ oc apply -f etcd-backup-pvc.yaml
```
Copy to Clipboard Toggle word wrap

次のコマンドを実行して、PVC が作成されたことを確認します。

oc get pvc

$ oc get pvc

Copy to Clipboard

Toggle word wrap

出力例

NAME              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
etcd-backup-pvc   Bound                                                       51s

NAME              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
etcd-backup-pvc   Bound                                                       51s

Copy to Clipboard

Toggle word wrap

注記

動的 PVC は、マウントされるまで Pending 状態から遷移しません。

次の例のような内容で、etcd-single-backup.yaml という名前の CR ファイルを作成します。

apiVersion: operator.openshift.io/v1alpha1
kind: EtcdBackup
metadata:
  name: etcd-single-backup
  namespace: openshift-etcd
spec:
  pvcName: etcd-backup-pvc

apiVersion: operator.openshift.io/v1alpha1
kind: EtcdBackup
metadata:
  name: etcd-single-backup
  namespace: openshift-etcd
spec:
  pvcName: etcd-backup-pvc

Copy to Clipboard

Toggle word wrap

1: バックアップを保存する PVC の名前。この値は、使用している環境に応じて調整してください。

CR を適用してシングルバックアップを開始します。
```
oc apply -f etcd-single-backup.yaml
```
```
$ oc apply -f etcd-single-backup.yaml
```
Copy to Clipboard Toggle word wrap

動的にプロビジョニングされたストレージが利用できない場合は、次の手順を実行して、単一の自動 etcd バックアップを作成します。

次の内容で、etcd-backup-local-storage.yaml という名前の StorageClass CR ファイルを作成します。

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: etcd-backup-local-storage
provisioner: kubernetes.io/no-provisioner
volumeBindingMode: Immediate

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: etcd-backup-local-storage
provisioner: kubernetes.io/no-provisioner
volumeBindingMode: Immediate

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、StorageClass CR を適用します。
```
oc apply -f etcd-backup-local-storage.yaml
```
```
$ oc apply -f etcd-backup-local-storage.yaml
```
Copy to Clipboard Toggle word wrap

次の例のような内容の etcd-backup-pv-fs.yaml という名前の PV を作成します。

apiVersion: v1
kind: PersistentVolume
metadata:
  name: etcd-backup-pv-fs
spec:
  capacity:
    storage: 100Gi 
  volumeMode: Filesystem
  accessModes:
  - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  storageClassName: etcd-backup-local-storage
  local:
    path: /mnt
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
      - key: kubernetes.io/hostname
         operator: In
         values:
         - <example_master_node>

apiVersion: v1
kind: PersistentVolume
metadata:
  name: etcd-backup-pv-fs
spec:
  capacity:
    storage: 100Gi


  volumeMode: Filesystem
  accessModes:
  - ReadWriteOnce
  persistentVolumeReclaimPolicy: Retain
  storageClassName: etcd-backup-local-storage
  local:
    path: /mnt
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
      - key: kubernetes.io/hostname
         operator: In
         values:
         - <example_master_node>

Copy to Clipboard

Toggle word wrap

1: PV が使用できるストレージの量。この値は、要件に合わせて調整します。
2: この値は、この PV をアタッチするノードに置き換えます。

次のコマンドを実行して、PV が作成されたことを確認します。

oc get pv

$ oc get pv

Copy to Clipboard

Toggle word wrap

出力例

NAME                    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS                REASON   AGE
etcd-backup-pv-fs       100Gi      RWO            Retain           Available           etcd-backup-local-storage            10s

NAME                    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS                REASON   AGE
etcd-backup-pv-fs       100Gi      RWO            Retain           Available           etcd-backup-local-storage            10s

Copy to Clipboard

Toggle word wrap

次の例のような内容で、etcd-backup-pvc.yaml という名前の PVC を作成します。

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
  namespace: openshift-etcd
spec:
  accessModes:
  - ReadWriteOnce
  volumeMode: Filesystem
  resources:
    requests:
      storage: 10Gi

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
  namespace: openshift-etcd
spec:
  accessModes:
  - ReadWriteOnce
  volumeMode: Filesystem
  resources:
    requests:
      storage: 10Gi

Copy to Clipboard

Toggle word wrap

1: PVC に利用できるストレージの量。この値は、要件に合わせて調整します。

以下のコマンドを実行して PVC を適用します。
```
oc apply -f etcd-backup-pvc.yaml
```
```
$ oc apply -f etcd-backup-pvc.yaml
```
Copy to Clipboard Toggle word wrap

次の例のような内容で、etcd-single-backup.yaml という名前の CR ファイルを作成します。

apiVersion: operator.openshift.io/v1alpha1
kind: EtcdBackup
metadata:
  name: etcd-single-backup
  namespace: openshift-etcd
spec:
  pvcName: etcd-backup-pvc

apiVersion: operator.openshift.io/v1alpha1
kind: EtcdBackup
metadata:
  name: etcd-single-backup
  namespace: openshift-etcd
spec:
  pvcName: etcd-backup-pvc

Copy to Clipboard

Toggle word wrap

1: バックアップを保存する永続ボリューム要求 (PVC) の名前。この値は、使用している環境に応じて調整してください。

CR を適用してシングルバックアップを開始します。
```
oc apply -f etcd-single-backup.yaml
```
```
$ oc apply -f etcd-single-backup.yaml
```
Copy to Clipboard Toggle word wrap

4.1.2.2. 定期的な自動 etcd バックアップの作成
リンクのコピー

etcd の自動繰り返しバックアップを作成するには、次の手順に従います。

可能であれば、動的にプロビジョニングされたストレージを使用して、作成された etcd バックアップデータを安全な外部の場所に保存します。動的にプロビジョニングされたストレージが利用できない場合は、バックアップの復元にアクセスしやすくするために、バックアップデータを NFS 共有に保存することを検討してください。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
OpenShift CLI (oc) にアクセスできる。

手順

動的にプロビジョニングされたストレージが利用可能な場合は、次の手順を実行して、自動化された繰り返しバックアップを作成します。

次の例のような内容で、etcd-backup-pvc.yaml という名前の永続ボリューム要求 (PVC) を作成します。

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
  namespace: openshift-etcd
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 200Gi 
  volumeMode: Filesystem
  storageClassName: etcd-backup-local-storage

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
  namespace: openshift-etcd
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 200Gi


  volumeMode: Filesystem
  storageClassName: etcd-backup-local-storage

Copy to Clipboard

Toggle word wrap

1: PVC に利用できるストレージの量。この値は、要件に合わせて調整します。

注記

次の各プロバイダーでは、accessModes キーと storageClassName キーを変更する必要があります。

Expand

Provider	`accessModes` 値	`storageClassName` 値
`versioned-installer-efc_operator-ci` プロファイルを持つ AWS	`- ReadWriteMany`	`efs-sc`
Google Cloud	`- ReadWriteMany`	`filestore-csi`
Microsoft Azure	`- ReadWriteMany`	`azurefile-csi`

以下のコマンドを実行して PVC を適用します。
```
oc apply -f etcd-backup-pvc.yaml
```
```
$ oc apply -f etcd-backup-pvc.yaml
```
Copy to Clipboard Toggle word wrap

次のコマンドを実行して、PVC が作成されたことを確認します。

oc get pvc

$ oc get pvc

Copy to Clipboard

Toggle word wrap

出力例

NAME              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
etcd-backup-pvc   Bound                                                       51s

NAME              STATUS    VOLUME   CAPACITY   ACCESS MODES   STORAGECLASS   AGE
etcd-backup-pvc   Bound                                                       51s

Copy to Clipboard

Toggle word wrap

注記

動的 PVC は、マウントされるまで Pending 状態から遷移しません。

動的にプロビジョニングされたストレージが使用できない場合は、次の手順を実行してローカルストレージ PVC を作成します。

警告

保存されているバックアップデータが格納されたノードを削除するか、該当ノードへのアクセスを失うと、データが失われる可能性があります。

次の内容で、etcd-backup-local-storage.yaml という名前の StorageClass CR ファイルを作成します。

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: etcd-backup-local-storage
provisioner: kubernetes.io/no-provisioner
volumeBindingMode: Immediate

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: etcd-backup-local-storage
provisioner: kubernetes.io/no-provisioner
volumeBindingMode: Immediate

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、StorageClass CR を適用します。
```
oc apply -f etcd-backup-local-storage.yaml
```
```
$ oc apply -f etcd-backup-local-storage.yaml
```
Copy to Clipboard Toggle word wrap

適用された StorageClass から、次の例のような内容の etcd-backup-pv-fs.yaml という名前の PV を作成します。

apiVersion: v1
kind: PersistentVolume
metadata:
  name: etcd-backup-pv-fs
spec:
  capacity:
    storage: 100Gi 
  volumeMode: Filesystem
  accessModes:
  - ReadWriteMany
  persistentVolumeReclaimPolicy: Delete
  storageClassName: etcd-backup-local-storage
  local:
    path: /mnt/
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
        - key: kubernetes.io/hostname
          operator: In
          values:
          - <example_master_node>

apiVersion: v1
kind: PersistentVolume
metadata:
  name: etcd-backup-pv-fs
spec:
  capacity:
    storage: 100Gi


  volumeMode: Filesystem
  accessModes:
  - ReadWriteMany
  persistentVolumeReclaimPolicy: Delete
  storageClassName: etcd-backup-local-storage
  local:
    path: /mnt/
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
        - key: kubernetes.io/hostname
          operator: In
          values:
          - <example_master_node>

Copy to Clipboard

Toggle word wrap

1: PV が使用できるストレージの量。この値は、要件に合わせて調整します。
2: この値は、この PV をアタッチするマスターノードに置き換えます。

ヒント

次のコマンドを実行して、使用可能なノードのリストを表示します。

oc get nodes

$ oc get nodes

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、PV が作成されたことを確認します。

oc get pv

$ oc get pv

Copy to Clipboard

Toggle word wrap

出力例

NAME                    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS                REASON   AGE
etcd-backup-pv-fs       100Gi      RWX            Delete           Available           etcd-backup-local-storage            10s

NAME                    CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS      CLAIM   STORAGECLASS                REASON   AGE
etcd-backup-pv-fs       100Gi      RWX            Delete           Available           etcd-backup-local-storage            10s

Copy to Clipboard

Toggle word wrap

次の例のような内容で、etcd-backup-pvc.yaml という名前の PVC を作成します。

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
spec:
  accessModes:
  - ReadWriteMany
  volumeMode: Filesystem
  resources:
    requests:
      storage: 10Gi 
  storageClassName: etcd-backup-local-storage

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
  name: etcd-backup-pvc
spec:
  accessModes:
  - ReadWriteMany
  volumeMode: Filesystem
  resources:
    requests:
      storage: 10Gi


  storageClassName: etcd-backup-local-storage

Copy to Clipboard

Toggle word wrap

1: PVC に利用できるストレージの量。この値は、要件に合わせて調整します。

以下のコマンドを実行して PVC を適用します。
```
oc apply -f etcd-backup-pvc.yaml
```
```
$ oc apply -f etcd-backup-pvc.yaml
```
Copy to Clipboard Toggle word wrap

etcd-recurring-backups.yaml という名前のカスタムリソース定義 (CRD) ファイルを作成します。作成された CRD の内容は、自動化されたバックアップのスケジュールと保持タイプを定義します。
- 15 個のバックアップを保持する RetentionNumber のデフォルトの保持タイプでは、次の例のような内容を使用します。
  apiVersion: config.openshift.io/v1alpha1 kind: Backup metadata: name: etcd-recurring-backup spec: etcd: schedule: "20 4 * * *"
  1
  timeZone: "UTC" pvcName: etcd-backup-pvc
  Copy to Clipboard Toggle word wrap
  1
  定期的なバックアップの CronTab スケジュール。この値は、必要に応じて調整します。
- バックアップの最大数に基づいて保持を使用するには、次のキーと値のペアを etcd キーに追加します。
  spec: etcd: retentionPolicy: retentionType: RetentionNumber
  1
  retentionNumber: maxNumberOfBackups: 5
  2
  Copy to Clipboard Toggle word wrap
  1
  保持タイプ。指定しない場合、デフォルトは RetentionNumber です。
  2
  保持するバックアップの最大数。この値は、必要に応じて調整します。指定しない場合、デフォルトは 15 個のバックアップです。
  警告
  既知の問題により、保持されるバックアップの数が設定された値に 1 を加えた数になります。
- バックアップのファイルサイズに基いて保持する場合は、以下を使用します。
  spec: etcd: retentionPolicy: retentionType: RetentionSize retentionSize: maxSizeOfBackupsGb: 20
  1
  Copy to Clipboard Toggle word wrap
  1
  保持するバックアップの最大ファイルサイズ (ギガバイト単位)。この値は、必要に応じて調整します。指定しない場合、デフォルトは 10 GB になります。
  警告
  既知の問題により、保持されるバックアップの最大サイズが設定値より最大 10 GB 大きくなります。
次のコマンドを実行して、CRD で定義される cron ジョブを作成します。
```
oc create -f etcd-recurring-backup.yaml
```
```
$ oc create -f etcd-recurring-backup.yaml
```
Copy to Clipboard Toggle word wrap
作成された cron ジョブを検索するには、次のコマンドを実行します。
```
oc get cronjob -n openshift-etcd
```
```
$ oc get cronjob -n openshift-etcd
```
Copy to Clipboard Toggle word wrap

4.2. 正常でない etcd メンバーの置き換え
リンクのコピー

単一の異常な etcd メンバーを置き換えるプロセスは、etcd メンバーが異常な状態である理由が、マシンが実行されていないか、ノードの準備ができていないか、または etcd Pod がクラッシュループしているかどうかによって異なります。

注記

コントロールプレーンホストの大部分を喪失した場合は、この手順ではなく、障害復旧手順に従って、以前のクラスター状態への復元を行います。

コントロールプレーンの証明書が置き換えているメンバーで有効でない場合は、この手順ではなく、期限切れのコントロールプレーン証明書からの回復手順を実行する必要があります。

コントロールプレーンノードが失われ、新規ノードが作成される場合、etcd クラスター Operator は新規 TLS 証明書の生成と、ノードの etcd メンバーとしての追加を処理します。

4.2.1. 正常でない etcd メンバーの特定
リンクのコピー

クラスターに正常でない etcd メンバーがあるかどうかを特定することができます。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
etcd のバックアップを取得している。詳細は、「etcd データのバックアップ」を参照してください。

手順

以下のコマンドを使用して EtcdMembersAvailable ステータス条件のステータスを確認します。

oc get etcd -o=jsonpath='{range .items[0].status.conditions[?(@.type=="EtcdMembersAvailable")]}{.message}{"\n"}{end}'

$ oc get etcd -o=jsonpath='{range .items[0].status.conditions[?(@.type=="EtcdMembersAvailable")]}{.message}{"\n"}{end}'

Copy to Clipboard

Toggle word wrap

出力を確認します。
```
2 of 3 members are available, ip-10-0-131-183.ec2.internal is unhealthy
```
```
2 of 3 members are available, ip-10-0-131-183.ec2.internal is unhealthy
```
Copy to Clipboard Toggle word wrap
この出力例は、ip-10-0-131-183.ec2.internal etcd メンバーが正常ではないことを示しています。

4.2.2. 正常でない etcd メンバーの状態の判別
リンクのコピー

正常でない etcd メンバーを置き換える手順は、etcd メンバーが以下のどの状態にあるかによって異なります。

マシンが実行されていないか、ノードが準備状態にない
etcd Pod がクラッシュループしている。

以下の手順では、etcd メンバーがどの状態にあるかを判別します。これにより、正常でない etcd メンバーを置き換えるために実行する必要のある手順を確認できます。

注記

マシンが実行されていないか、ノードが準備状態にないものの、すぐに正常な状態に戻ることが予想される場合は、etcd メンバーを置き換える手順を実行する必要はありません。etcd クラスター Operator はマシンまたはノードが正常な状態に戻ると自動的に同期します。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
正常でない etcd メンバーを特定している。

手順

マシンが実行されていない かどうかを確認します。
```
oc get machines -A -ojsonpath='{range .items[*]}{@.status.nodeRef.name}{"\t"}{@.status.providerStatus.instanceState}{"\n"}' | grep -v running
```
```
$ oc get machines -A -ojsonpath='{range .items[*]}{@.status.nodeRef.name}{"\t"}{@.status.providerStatus.instanceState}{"\n"}' | grep -v running
```
Copy to Clipboard Toggle word wrap
出力例
```
ip-10-0-131-183.ec2.internal  stopped 
```
```
ip-10-0-131-183.ec2.internal  stopped 
```
1
Copy to Clipboard Toggle word wrap
1
この出力には、ノードおよびノードのマシンのステータスをリスト表示されます。ステータスが running 以外の場合は、マシンは実行されていません。
マシンが実行されていない 場合は、マシンが実行されていないか、ノードが準備状態にない場合の正常でない etcd メンバーの置き換え の手順を実行します。
ノードの準備ができていない かどうかを確認します。
以下のシナリオのいずれかが true の場合、ノードは準備状態にありません。
- マシンが実行されている場合は、ノードに到達できないかどうかを確認します。
  $ oc get nodes -o jsonpath='{range .items[*]}{"\n"}{.metadata.name}{"\t"}{range .spec.taints[*]}{.key}{" "}' | grep unreachable
  Copy to Clipboard Toggle word wrap
  出力例
  ip-10-0-131-183.ec2.internal node-role.kubernetes.io/master node.kubernetes.io/unreachable node.kubernetes.io/unreachable
  1
  
  Copy to Clipboard Toggle word wrap
  1
  ノードが unreachable テイントと共にリスト表示される場合、ノードの準備はできていません。
- ノードにまだ到達可能な場合は、ノードが NotReady としてリストされるかどうかを確認します。
  $ oc get nodes -l node-role.kubernetes.io/master | grep "NotReady"
  Copy to Clipboard Toggle word wrap
  出力例
  ip-10-0-131-183.ec2.internal NotReady master 122m v1.33.4
  1
  
  Copy to Clipboard Toggle word wrap
  1
  ノードが NotReady としてリスト表示されている場合、ノードの準備はできていません。
ノードの準備ができていない 場合は、マシンが実行されていないか、ノードの準備ができていない場合の正常でない etcd メンバーの置き換え の手順を実行します。

etcd Pod がクラッシュループしている かどうかを確認します。

マシンが実行され、ノードが準備できている場合は、etcd Pod がクラッシュループしているかどうかを確認します。

すべてのコントロールプレーンノードが Ready としてリスト表示されていることを確認します。

oc get nodes -l node-role.kubernetes.io/master

$ oc get nodes -l node-role.kubernetes.io/master

Copy to Clipboard

Toggle word wrap

出力例

NAME                           STATUS   ROLES    AGE     VERSION
ip-10-0-131-183.ec2.internal   Ready    master   6h13m   v1.33.4
ip-10-0-164-97.ec2.internal    Ready    master   6h13m   v1.33.4
ip-10-0-154-204.ec2.internal   Ready    master   6h13m   v1.33.4

NAME                           STATUS   ROLES    AGE     VERSION
ip-10-0-131-183.ec2.internal   Ready    master   6h13m   v1.33.4
ip-10-0-164-97.ec2.internal    Ready    master   6h13m   v1.33.4
ip-10-0-154-204.ec2.internal   Ready    master   6h13m   v1.33.4

Copy to Clipboard

Toggle word wrap

etcd Pod のステータスが Error または CrashloopBackoff のいずれかであるかどうかを確認します。

oc -n openshift-etcd get pods -l k8s-app=etcd

$ oc -n openshift-etcd get pods -l k8s-app=etcd

Copy to Clipboard

Toggle word wrap

出力例

etcd-ip-10-0-131-183.ec2.internal                2/3     Error       7          6h9m 
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          6h6m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          6h6m

etcd-ip-10-0-131-183.ec2.internal                2/3     Error       7          6h9m


etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          6h6m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          6h6m

Copy to Clipboard

Toggle word wrap

1: この Pod のこのステータスは Error であるため、etcd Pod はクラッシュループしています。

etcd Pod がクラッシュループしている 場合、etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え に関する手順を実行します。

4.2.3. 正常でない etcd メンバーの置き換え
リンクのコピー

正常でない etcd メンバーの状態に応じて、以下のいずれかの手順を使用します。

マシンが実行されていないか、ノードの準備ができていない場合の正常でない etcd メンバーの置き換え
正常でないクラスターへのプライマリーコントロールプレーンノードのインストール
etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え
異常停止したベアメタル etcd メンバーの置き換え

4.2.3.1. マシンが実行されていないか、ノードの準備ができていない場合の正常でない etcd メンバーの置き換え
リンクのコピー

マシンが実行されていない、またはノードの準備ができていない、正常ではない etcd メンバーを置き換える手順を説明します。

注記

クラスターがコントロールプレーンマシンセットを使用している場合は、「コントロールプレーンマシンセットのトラブルシューティング」の「劣化した etcd Operator のリカバリー」で etcd のリカバリー手順を参照してください。

前提条件

正常でない etcd メンバーを特定している。
マシンが実行されていないか、ノードが準備状態にないことを確認している。
重要
他のコントロールプレーンノードの電源をオフにする場合は、待機する必要があります。異常な etcd メンバーの交換が完了するまで、コントロールプレーンノードの電源をオフのままにしておく必要があります。
cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
etcd のバックアップを取得している。
重要
この手順を実行する前に、問題が発生した場合にクラスターを復元できるように、etcd のバックアップを作成してください。

手順

正常でないメンバーを削除します。

影響を受けるノード上にない Pod を選択します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc -n openshift-etcd get pods -l k8s-app=etcd

$ oc -n openshift-etcd get pods -l k8s-app=etcd

Copy to Clipboard

Toggle word wrap

出力例

etcd-ip-10-0-131-183.ec2.internal                3/3     Running     0          123m
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          123m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          124m

etcd-ip-10-0-131-183.ec2.internal                3/3     Running     0          123m
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          123m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          124m

Copy to Clipboard

Toggle word wrap

実行中の etcd コンテナーに接続し、影響を受けるノードにない Pod の名前を渡します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
Copy to Clipboard Toggle word wrap

メンバーのリストを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 6fc1e7c9db35841d | started | ip-10-0-131-183.ec2.internal | https://10.0.131.183:2380 | https://10.0.131.183:2379 |
| 757b6793e2408b6c | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| ca8c2990a0aa29d1 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 6fc1e7c9db35841d | started | ip-10-0-131-183.ec2.internal | https://10.0.131.183:2380 | https://10.0.131.183:2379 |
| 757b6793e2408b6c | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| ca8c2990a0aa29d1 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

Copy to Clipboard

Toggle word wrap

正常でない etcd メンバーの ID と名前をメモしてください。これらの値はこの手順で後ほど必要になります。$ etcdctl endpoint health コマンドは、補充手順が完了し、新しいメンバーが追加されるまで、削除されたメンバーをリスト表示します。

ID を etcdctl member remove コマンドに指定して、正常でない etcd メンバーを削除します。
```
etcdctl member remove 6fc1e7c9db35841d
```
```
sh-4.2# etcdctl member remove 6fc1e7c9db35841d
```
Copy to Clipboard Toggle word wrap
出力例
```
Member 6fc1e7c9db35841d removed from cluster ead669ce1fbfb346
```
```
Member 6fc1e7c9db35841d removed from cluster ead669ce1fbfb346
```
Copy to Clipboard Toggle word wrap

メンバーのリストを再度表示し、メンバーが削除されたことを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 757b6793e2408b6c | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| ca8c2990a0aa29d1 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 757b6793e2408b6c | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| ca8c2990a0aa29d1 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

Copy to Clipboard

Toggle word wrap

これでノードシェルを終了できます。

次のコマンドを入力して、クォーラムガードをオフにします。
```
oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'
```
```
$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'
```
Copy to Clipboard Toggle word wrap
このコマンドにより、シークレットを正常に再作成し、静的 Pod をロールアウトできるようになります。
重要
クォーラムガードをオフにすると、設定の変更を反映するために残りの etcd インスタンスが再起動するまで、短時間クラスターにアクセスできなくなる可能性があります。
注記
etcd は、2 つのメンバーで実行されている場合、新たなメンバー障害を許容できません。残りのメンバーのいずれかを再起動すると、クォーラムが破棄され、クラスターでダウンタイムが発生します。クォーラムガードによって、ダウンタイムを引き起こす可能性のある設定変更による再起動から etcd が保護されるため、この手順を完了するには、クォーラムガードを無効にする必要があります。
次のコマンドを実行して、影響を受けるノードを削除します。
```
oc delete node <node_name>
```
```
$ oc delete node <node_name>
```
Copy to Clipboard Toggle word wrap
コマンドの例
```
oc delete node ip-10-0-131-183.ec2.internal
```
```
$ oc delete node ip-10-0-131-183.ec2.internal
```
Copy to Clipboard Toggle word wrap

削除された正常でない etcd メンバーの古いシークレットを削除します。

削除された正常でない etcd メンバーのシークレット一覧を表示します。

oc get secrets -n openshift-etcd | grep ip-10-0-131-183.ec2.internal

$ oc get secrets -n openshift-etcd | grep ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

1: この手順で先ほど書き留めた正常でない etcd メンバーの名前を渡します。

以下の出力に示されるように、ピア、サービング、およびメトリクスシークレットがあります。

出力例

etcd-peer-ip-10-0-131-183.ec2.internal              kubernetes.io/tls                     2      47m
etcd-serving-ip-10-0-131-183.ec2.internal           kubernetes.io/tls                     2      47m
etcd-serving-metrics-ip-10-0-131-183.ec2.internal   kubernetes.io/tls                     2      47m

etcd-peer-ip-10-0-131-183.ec2.internal              kubernetes.io/tls                     2      47m
etcd-serving-ip-10-0-131-183.ec2.internal           kubernetes.io/tls                     2      47m
etcd-serving-metrics-ip-10-0-131-183.ec2.internal   kubernetes.io/tls                     2      47m

Copy to Clipboard

Toggle word wrap

削除された正常でない etcd メンバーのシークレットを削除します。

ピアシークレットを削除します。

oc delete secret -n openshift-etcd etcd-peer-ip-10-0-131-183.ec2.internal

$ oc delete secret -n openshift-etcd etcd-peer-ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

サービングシークレットを削除します。

oc delete secret -n openshift-etcd etcd-serving-ip-10-0-131-183.ec2.internal

$ oc delete secret -n openshift-etcd etcd-serving-ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

メトリクスシークレットを削除します。

oc delete secret -n openshift-etcd etcd-serving-metrics-ip-10-0-131-183.ec2.internal

$ oc delete secret -n openshift-etcd etcd-serving-metrics-ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、コントロールプレーンマシンセットが存在するかどうかを確認します。

oc -n openshift-machine-api get controlplanemachineset

$ oc -n openshift-machine-api get controlplanemachineset

Copy to Clipboard

Toggle word wrap

コントロールプレーンマシンセットが存在する場合は、コントロールプレーンマシンを削除して再作成します。このマシンが再作成されると、新しいリビジョンが強制的に適用され、etcd は自動的にスケールアップします。詳細は、「マシンが実行されていないか、ノードの準備ができていない場合の正常でない etcd メンバーの置き換え」を参照してください。

インストーラーでプロビジョニングされるインフラストラクチャーを実行している場合、またはマシン API を使用してマシンを作成している場合は、以下の手順を実行します。それ以外の場合は、最初にコントロールプレーンを作成したときと同じ方法を使用して、新しいコントロールプレーンを作成する必要があります。

正常でないメンバーのマシンを取得します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-0                  Running   m4.xlarge   us-east-1   us-east-1a   3h37m   ip-10-0-131-183.ec2.internal   aws:///us-east-1a/i-0ec2782f8287dfb7e   stopped 
clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-0                  Running   m4.xlarge   us-east-1   us-east-1a   3h37m   ip-10-0-131-183.ec2.internal   aws:///us-east-1a/i-0ec2782f8287dfb7e   stopped


clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

1: これは正常でないノードのコントロールプレーンマシンです (ip-10-0-131-183.ec2.internal)。

正常でないメンバーのマシンを削除します。
```
oc delete machine -n openshift-machine-api clustername-8qw5l-master-0
```
```
$ oc delete machine -n openshift-machine-api clustername-8qw5l-master-0 
```
1
Copy to Clipboard Toggle word wrap
1
正常でないノードのコントロールプレーンマシンの名前を指定します。
正常でないメンバーのマシンを削除すると、新しいマシンが自動的にプロビジョニングされます。

新しいマシンが作成されたことを確認します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE          TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running        m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running        m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-master-3                  Provisioning   m4.xlarge   us-east-1   us-east-1a   85s     ip-10-0-133-53.ec2.internal    aws:///us-east-1a/i-015b0888fe17bc2c8   running 
clustername-8qw5l-worker-us-east-1a-wbtgd   Running        m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running        m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running        m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE          TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running        m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running        m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-master-3                  Provisioning   m4.xlarge   us-east-1   us-east-1a   85s     ip-10-0-133-53.ec2.internal    aws:///us-east-1a/i-015b0888fe17bc2c8   running


clustername-8qw5l-worker-us-east-1a-wbtgd   Running        m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running        m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running        m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

1: 新規マシン clustername-8qw5l-master-3 が作成され、Provisioning から Running にフェーズが変更されると準備状態になります。

新規マシンが作成されるまでに数分の時間がかかる場合があります。マシンまたはノードが正常な状態に戻ると、etcd クラスター Operator が自動的に同期します。

注記

マシンセットに使用しているサブネット ID を確認し、それが正しいアベイラビリティーゾーン内にあることを確認してください。

コントロールプレーンマシンセットが存在しない場合は、コントロールプレーンマシンを削除して再作成します。このマシンが再作成されると、新しいリビジョンが強制的に適用され、etcd は自動的にスケールアップします。

正常でないメンバーのマシンを取得します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-0                  Running   m4.xlarge   us-east-1   us-east-1a   3h37m   ip-10-0-131-183.ec2.internal   aws:///us-east-1a/i-0ec2782f8287dfb7e   stopped 
clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-0                  Running   m4.xlarge   us-east-1   us-east-1a   3h37m   ip-10-0-131-183.ec2.internal   aws:///us-east-1a/i-0ec2782f8287dfb7e   stopped


clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

1: これは正常でないノードのコントロールプレーンマシンです (ip-10-0-131-183.ec2.internal)。

マシン設定をファイルシステムのファイルに保存します。

oc get machine clustername-8qw5l-master-0 \
    -n openshift-machine-api \
    -o yaml \
    > new-master-machine.yaml

$ oc get machine clustername-8qw5l-master-0 \


    -n openshift-machine-api \
    -o yaml \
    > new-master-machine.yaml

Copy to Clipboard

Toggle word wrap

1: 正常でないノードのコントロールプレーンマシンの名前を指定します。

直前の手順で作成された new-master-machine.yaml ファイルを編集し、新しい名前を割り当て、不要なフィールドを削除します。

status セクション全体を削除します。

status:
  addresses:
  - address: 10.0.131.183
    type: InternalIP
  - address: ip-10-0-131-183.ec2.internal
    type: InternalDNS
  - address: ip-10-0-131-183.ec2.internal
    type: Hostname
  lastUpdated: "2020-04-20T17:44:29Z"
  nodeRef:
    kind: Node
    name: ip-10-0-131-183.ec2.internal
    uid: acca4411-af0d-4387-b73e-52b2484295ad
  phase: Running
  providerStatus:
    apiVersion: awsproviderconfig.openshift.io/v1beta1
    conditions:
    - lastProbeTime: "2020-04-20T16:53:50Z"
      lastTransitionTime: "2020-04-20T16:53:50Z"
      message: machine successfully created
      reason: MachineCreationSucceeded
      status: "True"
      type: MachineCreation
    instanceId: i-0fdb85790d76d0c3f
    instanceState: stopped
    kind: AWSMachineProviderStatus

status:
  addresses:
  - address: 10.0.131.183
    type: InternalIP
  - address: ip-10-0-131-183.ec2.internal
    type: InternalDNS
  - address: ip-10-0-131-183.ec2.internal
    type: Hostname
  lastUpdated: "2020-04-20T17:44:29Z"
  nodeRef:
    kind: Node
    name: ip-10-0-131-183.ec2.internal
    uid: acca4411-af0d-4387-b73e-52b2484295ad
  phase: Running
  providerStatus:
    apiVersion: awsproviderconfig.openshift.io/v1beta1
    conditions:
    - lastProbeTime: "2020-04-20T16:53:50Z"
      lastTransitionTime: "2020-04-20T16:53:50Z"
      message: machine successfully created
      reason: MachineCreationSucceeded
      status: "True"
      type: MachineCreation
    instanceId: i-0fdb85790d76d0c3f
    instanceState: stopped
    kind: AWSMachineProviderStatus

Copy to Clipboard

Toggle word wrap

metadata.name フィールドを新規の名前に変更します。
古いマシンと同じベース名を維持し、最後の番号を次の使用可能な番号に変更します。この例では、clustername-8qw5l-master-0 は clustername-8qw5l-master-3 に変更されています。
以下に例を示します。
```
apiVersion: machine.openshift.io/v1beta1
kind: Machine
metadata:
  ...
  name: clustername-8qw5l-master-3
  ...
```
```
apiVersion: machine.openshift.io/v1beta1
kind: Machine
metadata:
  ...
  name: clustername-8qw5l-master-3
  ...
```
Copy to Clipboard Toggle word wrap

spec.providerID フィールドを削除します。

  providerID: aws:///us-east-1a/i-0fdb85790d76d0c3f

  providerID: aws:///us-east-1a/i-0fdb85790d76d0c3f

Copy to Clipboard

Toggle word wrap

正常でないメンバーのマシンを削除します。
```
oc delete machine -n openshift-machine-api clustername-8qw5l-master-0
```
```
$ oc delete machine -n openshift-machine-api clustername-8qw5l-master-0 
```
1
Copy to Clipboard Toggle word wrap
1
正常でないノードのコントロールプレーンマシンの名前を指定します。

マシンが削除されたことを確認します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

new-master-machine.yaml ファイルを使用して新しいマシンを作成します。
```
oc apply -f new-master-machine.yaml
```
```
$ oc apply -f new-master-machine.yaml
```
Copy to Clipboard Toggle word wrap

新しいマシンが作成されたことを確認します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE          TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running        m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running        m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-master-3                  Provisioning   m4.xlarge   us-east-1   us-east-1a   85s     ip-10-0-133-53.ec2.internal    aws:///us-east-1a/i-015b0888fe17bc2c8   running 
clustername-8qw5l-worker-us-east-1a-wbtgd   Running        m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running        m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running        m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE          TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running        m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-154-204.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running        m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-164-97.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba   running
clustername-8qw5l-master-3                  Provisioning   m4.xlarge   us-east-1   us-east-1a   85s     ip-10-0-133-53.ec2.internal    aws:///us-east-1a/i-015b0888fe17bc2c8   running


clustername-8qw5l-worker-us-east-1a-wbtgd   Running        m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running        m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running        m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

1: 新規マシン clustername-8qw5l-master-3 が作成され、Provisioning から Running にフェーズが変更されると準備状態になります。

次のコマンドを入力して、クォーラムガードをオンに戻します。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、unsupportedConfigOverrides セクションがオブジェクトから削除されたことを確認できます。
```
oc get etcd/cluster -oyaml
```
```
$ oc get etcd/cluster -oyaml
```
Copy to Clipboard Toggle word wrap

シングルノードの OpenShift を使用している場合は、ノードを再起動します。そうしないと、etcd クラスター Operator で次のエラーが発生する可能性があります。

出力例

EtcdCertSignerControllerDegraded: [Operation cannot be fulfilled on secrets "etcd-peer-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-metrics-sno-0": the object has been modified; please apply your changes to the latest version and try again]

EtcdCertSignerControllerDegraded: [Operation cannot be fulfilled on secrets "etcd-peer-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-metrics-sno-0": the object has been modified; please apply your changes to the latest version and try again]

Copy to Clipboard

Toggle word wrap

検証

すべての etcd Pod が適切に実行されていることを確認します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc -n openshift-etcd get pods -l k8s-app=etcd

$ oc -n openshift-etcd get pods -l k8s-app=etcd

Copy to Clipboard

Toggle word wrap

出力例

etcd-ip-10-0-133-53.ec2.internal                 3/3     Running     0          7m49s
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          123m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          124m

etcd-ip-10-0-133-53.ec2.internal                 3/3     Running     0          7m49s
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          123m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          124m

Copy to Clipboard

Toggle word wrap

直前のコマンドの出力に 2 つの Pod のみがリスト表示される場合、etcd の再デプロイメントを手動で強制できます。クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge

$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge

Copy to Clipboard

Toggle word wrap

1: forceRedeploymentReason 値は一意である必要があります。そのため、タイムスタンプが付加されます。

3 つの etcd メンバーがあることを確認します。

実行中の etcd コンテナーに接続し、影響を受けるノードになかった Pod の名前を渡します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
Copy to Clipboard Toggle word wrap

メンバーのリストを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 5eb0d6b8ca24730c | started |  ip-10-0-133-53.ec2.internal |  https://10.0.133.53:2380 |  https://10.0.133.53:2379 |
| 757b6793e2408b6c | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| ca8c2990a0aa29d1 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 5eb0d6b8ca24730c | started |  ip-10-0-133-53.ec2.internal |  https://10.0.133.53:2380 |  https://10.0.133.53:2379 |
| 757b6793e2408b6c | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| ca8c2990a0aa29d1 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

Copy to Clipboard

Toggle word wrap

直前のコマンドの出力に 4 つ以上の etcd メンバーが表示される場合、不要なメンバーを慎重に削除する必要があります。

警告

必ず適切な etcd メンバーを削除します。適切な etcd メンバーを削除すると、クォーラム (定足数) が失われる可能性があります。

4.2.3.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え
リンクのコピー

この手順では、etcd Pod がクラッシュループしている場合の正常でない etcd メンバーを置き換える手順を説明します。

前提条件

正常でない etcd メンバーを特定している。
etcd Pod がクラッシュループしていることを確認している。
cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
etcd のバックアップを取得している。
重要
問題が発生した場合にクラスターを復元できるように、この手順を実行する前に etcd バックアップを作成しておくことは重要です。

手順

クラッシュループしている etcd Pod を停止します。
1. クラッシュループしているノードをデバッグします。
  クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
  $ oc debug node/ip-10-0-131-183.ec2.internal
  1
  Copy to Clipboard Toggle word wrap
  1
  これを正常でないノードの名前に置き換えます。
2. ルートディレクトリーを /host に変更します。
  sh-4.2# chroot /host
  Copy to Clipboard Toggle word wrap
3. 既存の etcd Pod ファイルを kubelet マニフェストディレクトリーから移動します。
  sh-4.2# mkdir /var/lib/etcd-backup
  Copy to Clipboard Toggle word wrap
  sh-4.2# mv /etc/kubernetes/manifests/etcd-pod.yaml /var/lib/etcd-backup/
  Copy to Clipboard Toggle word wrap
4. etcd データディレクトリーを別の場所に移動します。
  sh-4.2# mv /var/lib/etcd/ /tmp
  Copy to Clipboard Toggle word wrap
  これでノードシェルを終了できます。

正常でないメンバーを削除します。

影響を受けるノード上にない Pod を選択します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc -n openshift-etcd get pods -l k8s-app=etcd

$ oc -n openshift-etcd get pods -l k8s-app=etcd

Copy to Clipboard

Toggle word wrap

出力例

etcd-ip-10-0-131-183.ec2.internal                2/3     Error       7          6h9m
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          6h6m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          6h6m

etcd-ip-10-0-131-183.ec2.internal                2/3     Error       7          6h9m
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          6h6m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          6h6m

Copy to Clipboard

Toggle word wrap

実行中の etcd コンテナーに接続し、影響を受けるノードにない Pod の名前を渡します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
Copy to Clipboard Toggle word wrap

メンバーのリストを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 62bcf33650a7170a | started | ip-10-0-131-183.ec2.internal | https://10.0.131.183:2380 | https://10.0.131.183:2379 |
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 62bcf33650a7170a | started | ip-10-0-131-183.ec2.internal | https://10.0.131.183:2380 | https://10.0.131.183:2379 |
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

Copy to Clipboard

Toggle word wrap

これらの値はこの手順で後ほど必要となるため、ID および正常でない etcd メンバーの名前を書き留めておきます。

ID を etcdctl member remove コマンドに指定して、正常でない etcd メンバーを削除します。
```
etcdctl member remove 62bcf33650a7170a
```
```
sh-4.2# etcdctl member remove 62bcf33650a7170a
```
Copy to Clipboard Toggle word wrap
出力例
```
Member 62bcf33650a7170a removed from cluster ead669ce1fbfb346
```
```
Member 62bcf33650a7170a removed from cluster ead669ce1fbfb346
```
Copy to Clipboard Toggle word wrap

メンバーのリストを再度表示し、メンバーが削除されたことを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

Copy to Clipboard

Toggle word wrap

これでノードシェルを終了できます。

次のコマンドを入力して、クォーラムガードをオフにします。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'

Copy to Clipboard

Toggle word wrap

このコマンドにより、シークレットを正常に再作成し、静的 Pod をロールアウトできるようになります。

削除された正常でない etcd メンバーの古いシークレットを削除します。

削除された正常でない etcd メンバーのシークレット一覧を表示します。

oc get secrets -n openshift-etcd | grep ip-10-0-131-183.ec2.internal

$ oc get secrets -n openshift-etcd | grep ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

1: この手順で先ほど書き留めた正常でない etcd メンバーの名前を渡します。

以下の出力に示されるように、ピア、サービング、およびメトリクスシークレットがあります。

出力例

etcd-peer-ip-10-0-131-183.ec2.internal              kubernetes.io/tls                     2      47m
etcd-serving-ip-10-0-131-183.ec2.internal           kubernetes.io/tls                     2      47m
etcd-serving-metrics-ip-10-0-131-183.ec2.internal   kubernetes.io/tls                     2      47m

etcd-peer-ip-10-0-131-183.ec2.internal              kubernetes.io/tls                     2      47m
etcd-serving-ip-10-0-131-183.ec2.internal           kubernetes.io/tls                     2      47m
etcd-serving-metrics-ip-10-0-131-183.ec2.internal   kubernetes.io/tls                     2      47m

Copy to Clipboard

Toggle word wrap

削除された正常でない etcd メンバーのシークレットを削除します。

ピアシークレットを削除します。

oc delete secret -n openshift-etcd etcd-peer-ip-10-0-131-183.ec2.internal

$ oc delete secret -n openshift-etcd etcd-peer-ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

サービングシークレットを削除します。

oc delete secret -n openshift-etcd etcd-serving-ip-10-0-131-183.ec2.internal

$ oc delete secret -n openshift-etcd etcd-serving-ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

メトリクスシークレットを削除します。

oc delete secret -n openshift-etcd etcd-serving-metrics-ip-10-0-131-183.ec2.internal

$ oc delete secret -n openshift-etcd etcd-serving-metrics-ip-10-0-131-183.ec2.internal

Copy to Clipboard

Toggle word wrap

etcd の再デプロイメントを強制的に実行します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "single-master-recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge
```
```
$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "single-master-recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge 
```
1
Copy to Clipboard Toggle word wrap
1
forceRedeploymentReason 値は一意である必要があります。そのため、タイムスタンプが付加されます。
etcd クラスター Operator が再デプロイを実行する場合、すべてのコントロールプレーンノードで etcd Pod が機能していることを確認します。

次のコマンドを入力して、クォーラムガードをオンに戻します。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、unsupportedConfigOverrides セクションがオブジェクトから削除されたことを確認できます。
```
oc get etcd/cluster -oyaml
```
```
$ oc get etcd/cluster -oyaml
```
Copy to Clipboard Toggle word wrap

出力例

EtcdCertSignerControllerDegraded: [Operation cannot be fulfilled on secrets "etcd-peer-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-metrics-sno-0": the object has been modified; please apply your changes to the latest version and try again]

EtcdCertSignerControllerDegraded: [Operation cannot be fulfilled on secrets "etcd-peer-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-metrics-sno-0": the object has been modified; please apply your changes to the latest version and try again]

Copy to Clipboard

Toggle word wrap

検証

新しいメンバーが利用可能で、正常な状態にあることを確認します。

再度実行中の etcd コンテナーに接続します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```
Copy to Clipboard Toggle word wrap

すべてのメンバーが正常であることを確認します。

etcdctl endpoint health

sh-4.2# etcdctl endpoint health

Copy to Clipboard

Toggle word wrap

出力例

https://10.0.131.183:2379 is healthy: successfully committed proposal: took = 16.671434ms
https://10.0.154.204:2379 is healthy: successfully committed proposal: took = 16.698331ms
https://10.0.164.97:2379 is healthy: successfully committed proposal: took = 16.621645ms

https://10.0.131.183:2379 is healthy: successfully committed proposal: took = 16.671434ms
https://10.0.154.204:2379 is healthy: successfully committed proposal: took = 16.698331ms
https://10.0.164.97:2379 is healthy: successfully committed proposal: took = 16.621645ms

Copy to Clipboard

Toggle word wrap

4.2.3.3. マシンが実行されていないか、ノードが準備状態にない場合の正常でないベアメタル etcd メンバーの置き換え
リンクのコピー

以下の手順では、マシンが実行されていないか、ノードが準備状態にない場合の正常でないベアメタル etcd メンバーを置き換える手順を説明します。

インストーラーでプロビジョニングされるインフラストラクチャーを実行している場合、またはマシン API を使用してマシンを作成している場合は、以下の手順を実行します。それ以外の場合は、最初に作成したときと同じ方法で、新しいコントロールプレーンノードを作成する必要があります。

前提条件

正常でないベアメタル etcd メンバーを特定している。
マシンが実行されていないか、ノードが準備状態にないことを確認している。
cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
etcd のバックアップを取得している。
重要
問題が発生した場合にクラスターを復元できるように、この手順を実行する前に etcd バックアップを作成しておく。

手順

正常でないメンバーを確認し、削除します。

影響を受けるノード上にない Pod を選択します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc -n openshift-etcd get pods -l k8s-app=etcd -o wide

$ oc -n openshift-etcd get pods -l k8s-app=etcd -o wide

Copy to Clipboard

Toggle word wrap

出力例

etcd-openshift-control-plane-0   5/5   Running   11   3h56m   192.168.10.9   openshift-control-plane-0  <none>           <none>
etcd-openshift-control-plane-1   5/5   Running   0    3h54m   192.168.10.10   openshift-control-plane-1   <none>           <none>
etcd-openshift-control-plane-2   5/5   Running   0    3h58m   192.168.10.11   openshift-control-plane-2   <none>           <none>

etcd-openshift-control-plane-0   5/5   Running   11   3h56m   192.168.10.9   openshift-control-plane-0  <none>           <none>
etcd-openshift-control-plane-1   5/5   Running   0    3h54m   192.168.10.10   openshift-control-plane-1   <none>           <none>
etcd-openshift-control-plane-2   5/5   Running   0    3h58m   192.168.10.11   openshift-control-plane-2   <none>           <none>

Copy to Clipboard

Toggle word wrap

実行中の etcd コンテナーに接続し、影響を受けるノードにない Pod の名前を渡します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc rsh -n openshift-etcd etcd-openshift-control-plane-0
```
```
$ oc rsh -n openshift-etcd etcd-openshift-control-plane-0
```
Copy to Clipboard Toggle word wrap

メンバーのリストを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+--------------------+---------------------------+---------------------------+---------------------+
| ID               | STATUS  | NAME                      | PEER ADDRS                  | CLIENT ADDRS                | IS LEARNER |
+------------------+---------+--------------------+---------------------------+---------------------------+---------------------+
| 7a8197040a5126c8 | started | openshift-control-plane-2 | https://192.168.10.11:2380/ | https://192.168.10.11:2379/ | false |
| 8d5abe9669a39192 | started | openshift-control-plane-1 | https://192.168.10.10:2380/ | https://192.168.10.10:2379/ | false |
| cc3830a72fc357f9 | started | openshift-control-plane-0 | https://192.168.10.9:2380/ | https://192.168.10.9:2379/   | false |
+------------------+---------+--------------------+---------------------------+---------------------------+---------------------+

+------------------+---------+--------------------+---------------------------+---------------------------+---------------------+
| ID               | STATUS  | NAME                      | PEER ADDRS                  | CLIENT ADDRS                | IS LEARNER |
+------------------+---------+--------------------+---------------------------+---------------------------+---------------------+
| 7a8197040a5126c8 | started | openshift-control-plane-2 | https://192.168.10.11:2380/ | https://192.168.10.11:2379/ | false |
| 8d5abe9669a39192 | started | openshift-control-plane-1 | https://192.168.10.10:2380/ | https://192.168.10.10:2379/ | false |
| cc3830a72fc357f9 | started | openshift-control-plane-0 | https://192.168.10.9:2380/ | https://192.168.10.9:2379/   | false |
+------------------+---------+--------------------+---------------------------+---------------------------+---------------------+

Copy to Clipboard

Toggle word wrap

これらの値はこの手順で後ほど必要となるため、ID および正常でない etcd メンバーの名前を書き留めておきます。etcdctl endpoint health コマンドは、置き換えの手順が完了し、新規メンバーが追加されるまで、削除されたメンバーをリスト表示します。

ID を etcdctl member remove コマンドに指定して、正常でない etcd メンバーを削除します。
警告
必ず適切な etcd メンバーを削除します。適切な etcd メンバーを削除すると、クォーラム (定足数) が失われる可能性があります。
```
etcdctl member remove 7a8197040a5126c8
```
```
sh-4.2# etcdctl member remove 7a8197040a5126c8
```
Copy to Clipboard Toggle word wrap
出力例
```
Member 7a8197040a5126c8 removed from cluster b23536c33f2cdd1b
```
```
Member 7a8197040a5126c8 removed from cluster b23536c33f2cdd1b
```
Copy to Clipboard Toggle word wrap

メンバーのリストを再度表示し、メンバーが削除されたことを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+--------------------+---------------------------+---------------------------+-------------------------+
| ID               | STATUS  | NAME                      | PEER ADDRS                  | CLIENT ADDRS                | IS LEARNER |
+------------------+---------+--------------------+---------------------------+---------------------------+-------------------------+
| cc3830a72fc357f9 | started | openshift-control-plane-2 | https://192.168.10.11:2380/ | https://192.168.10.11:2379/ | false |
| 8d5abe9669a39192 | started | openshift-control-plane-1 | https://192.168.10.10:2380/ | https://192.168.10.10:2379/ | false |
+------------------+---------+--------------------+---------------------------+---------------------------+-------------------------+

+------------------+---------+--------------------+---------------------------+---------------------------+-------------------------+
| ID               | STATUS  | NAME                      | PEER ADDRS                  | CLIENT ADDRS                | IS LEARNER |
+------------------+---------+--------------------+---------------------------+---------------------------+-------------------------+
| cc3830a72fc357f9 | started | openshift-control-plane-2 | https://192.168.10.11:2380/ | https://192.168.10.11:2379/ | false |
| 8d5abe9669a39192 | started | openshift-control-plane-1 | https://192.168.10.10:2380/ | https://192.168.10.10:2379/ | false |
+------------------+---------+--------------------+---------------------------+---------------------------+-------------------------+

Copy to Clipboard

Toggle word wrap

これでノードシェルを終了できます。

重要

メンバーを削除した後、残りの etcd インスタンスが再起動している間、クラスターに短時間アクセスできない場合があります。

次のコマンドを入力して、クォーラムガードをオフにします。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'

Copy to Clipboard

Toggle word wrap

このコマンドにより、シークレットを正常に再作成し、静的 Pod をロールアウトできるようになります。

以下のコマンドを実行して、削除された正常でない etcd メンバーの古いシークレットを削除します。

削除された正常でない etcd メンバーのシークレット一覧を表示します。

oc get secrets -n openshift-etcd | grep openshift-control-plane-2

$ oc get secrets -n openshift-etcd | grep openshift-control-plane-2

Copy to Clipboard

Toggle word wrap

この手順で先ほど書き留めた正常でない etcd メンバーの名前を渡します。

以下の出力に示されるように、ピア、サービング、およびメトリクスシークレットがあります。

etcd-peer-openshift-control-plane-2             kubernetes.io/tls   2   134m
etcd-serving-metrics-openshift-control-plane-2  kubernetes.io/tls   2   134m
etcd-serving-openshift-control-plane-2          kubernetes.io/tls   2   134m

etcd-peer-openshift-control-plane-2             kubernetes.io/tls   2   134m
etcd-serving-metrics-openshift-control-plane-2  kubernetes.io/tls   2   134m
etcd-serving-openshift-control-plane-2          kubernetes.io/tls   2   134m

Copy to Clipboard

Toggle word wrap

削除された正常でない etcd メンバーのシークレットを削除します。

ピアシークレットを削除します。

oc delete secret etcd-peer-openshift-control-plane-2 -n openshift-etcd

secret "etcd-peer-openshift-control-plane-2" deleted

$ oc delete secret etcd-peer-openshift-control-plane-2 -n openshift-etcd

secret "etcd-peer-openshift-control-plane-2" deleted

Copy to Clipboard

Toggle word wrap

サービングシークレットを削除します。

oc delete secret etcd-serving-metrics-openshift-control-plane-2 -n openshift-etcd

secret "etcd-serving-metrics-openshift-control-plane-2" deleted

$ oc delete secret etcd-serving-metrics-openshift-control-plane-2 -n openshift-etcd

secret "etcd-serving-metrics-openshift-control-plane-2" deleted

Copy to Clipboard

Toggle word wrap

メトリクスシークレットを削除します。

oc delete secret etcd-serving-openshift-control-plane-2 -n openshift-etcd

secret "etcd-serving-openshift-control-plane-2" deleted

$ oc delete secret etcd-serving-openshift-control-plane-2 -n openshift-etcd

secret "etcd-serving-openshift-control-plane-2" deleted

Copy to Clipboard

Toggle word wrap

正常でないメンバーのマシンを取得します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                              PHASE     TYPE   REGION   ZONE   AGE     NODE                               PROVIDERID                                                                                              STATE
examplecluster-control-plane-0    Running                          3h11m   openshift-control-plane-0   baremetalhost:///openshift-machine-api/openshift-control-plane-0/da1ebe11-3ff2-41c5-b099-0aa41222964e   externally provisioned 
examplecluster-control-plane-1    Running                          3h11m   openshift-control-plane-1   baremetalhost:///openshift-machine-api/openshift-control-plane-1/d9f9acbc-329c-475e-8d81-03b20280a3e1   externally provisioned
examplecluster-control-plane-2    Running                          3h11m   openshift-control-plane-2   baremetalhost:///openshift-machine-api/openshift-control-plane-2/3354bdac-61d8-410f-be5b-6a395b056135   externally provisioned
examplecluster-compute-0          Running                          165m    openshift-compute-0         baremetalhost:///openshift-machine-api/openshift-compute-0/3d685b81-7410-4bb3-80ec-13a31858241f         provisioned
examplecluster-compute-1          Running                          165m    openshift-compute-1         baremetalhost:///openshift-machine-api/openshift-compute-1/0fdae6eb-2066-4241-91dc-e7ea72ab13b9         provisioned

NAME                              PHASE     TYPE   REGION   ZONE   AGE     NODE                               PROVIDERID                                                                                              STATE
examplecluster-control-plane-0    Running                          3h11m   openshift-control-plane-0   baremetalhost:///openshift-machine-api/openshift-control-plane-0/da1ebe11-3ff2-41c5-b099-0aa41222964e   externally provisioned


examplecluster-control-plane-1    Running                          3h11m   openshift-control-plane-1   baremetalhost:///openshift-machine-api/openshift-control-plane-1/d9f9acbc-329c-475e-8d81-03b20280a3e1   externally provisioned
examplecluster-control-plane-2    Running                          3h11m   openshift-control-plane-2   baremetalhost:///openshift-machine-api/openshift-control-plane-2/3354bdac-61d8-410f-be5b-6a395b056135   externally provisioned
examplecluster-compute-0          Running                          165m    openshift-compute-0         baremetalhost:///openshift-machine-api/openshift-compute-0/3d685b81-7410-4bb3-80ec-13a31858241f         provisioned
examplecluster-compute-1          Running                          165m    openshift-compute-1         baremetalhost:///openshift-machine-api/openshift-compute-1/0fdae6eb-2066-4241-91dc-e7ea72ab13b9         provisioned

Copy to Clipboard

Toggle word wrap

1: これは正常でないノードのコントロールプレーンマシンです (examplecluster-control-plane-2)。

以下のコマンドを実行して、Bare Metal Operator が利用可能であることを確認します。

oc get clusteroperator baremetal

$ oc get clusteroperator baremetal

Copy to Clipboard

Toggle word wrap

出力例

NAME        VERSION   AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE
baremetal   4.20.0    True        False         False      3d15h

NAME        VERSION   AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE
baremetal   4.20.0    True        False         False      3d15h

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、古い BareMetalHost オブジェクトを削除します。

oc delete bmh openshift-control-plane-2 -n openshift-machine-api

$ oc delete bmh openshift-control-plane-2 -n openshift-machine-api

Copy to Clipboard

Toggle word wrap

出力例

baremetalhost.metal3.io "openshift-control-plane-2" deleted

baremetalhost.metal3.io "openshift-control-plane-2" deleted

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、異常なメンバーのマシンを削除します。
```
oc delete machine -n openshift-machine-api examplecluster-control-plane-2
```
```
$ oc delete machine -n openshift-machine-api examplecluster-control-plane-2
```
Copy to Clipboard Toggle word wrap
BareMetalHost および Machine オブジェクトを削除すると、Machine コントローラーにより Node オブジェクトが自動的に削除されます。
何らかの理由でマシンの削除が遅れたり、コマンドが妨げられて遅れたりする場合は、マシンオブジェクトのファイナライザーフィールドを削除することで強制的に削除できます。
重要
Ctrl+c を押してマシンの削除を中断しないでください。コマンドが完了するまで続行できるようにする必要があります。新しいターミナルウィンドウを開き、ファイナライザーフィールドを編集して削除します。
正常でないメンバーのマシンを削除すると、新しいマシンが自動的にプロビジョニングされます。
1. 次のコマンドを実行して、マシン設定を編集します。
  $ oc edit machine -n openshift-machine-api examplecluster-control-plane-2
  Copy to Clipboard Toggle word wrap
2. Machine カスタムリソースの次のフィールドを削除し、更新されたファイルを保存します。
  finalizers: - machine.machine.openshift.io
  Copy to Clipboard Toggle word wrap
  出力例
  machine.machine.openshift.io/examplecluster-control-plane-2 edited
  
  Copy to Clipboard Toggle word wrap

以下のコマンドを実行して、マシンが削除されていることを確認します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                              PHASE     TYPE   REGION   ZONE   AGE     NODE                                 PROVIDERID                                                                                       STATE
examplecluster-control-plane-0    Running                          3h11m   openshift-control-plane-0   baremetalhost:///openshift-machine-api/openshift-control-plane-0/da1ebe11-3ff2-41c5-b099-0aa41222964e   externally provisioned
examplecluster-control-plane-1    Running                          3h11m   openshift-control-plane-1   baremetalhost:///openshift-machine-api/openshift-control-plane-1/d9f9acbc-329c-475e-8d81-03b20280a3e1   externally provisioned
examplecluster-compute-0          Running                          165m    openshift-compute-0         baremetalhost:///openshift-machine-api/openshift-compute-0/3d685b81-7410-4bb3-80ec-13a31858241f         provisioned
examplecluster-compute-1          Running                          165m    openshift-compute-1         baremetalhost:///openshift-machine-api/openshift-compute-1/0fdae6eb-2066-4241-91dc-e7ea72ab13b9         provisioned

NAME                              PHASE     TYPE   REGION   ZONE   AGE     NODE                                 PROVIDERID                                                                                       STATE
examplecluster-control-plane-0    Running                          3h11m   openshift-control-plane-0   baremetalhost:///openshift-machine-api/openshift-control-plane-0/da1ebe11-3ff2-41c5-b099-0aa41222964e   externally provisioned
examplecluster-control-plane-1    Running                          3h11m   openshift-control-plane-1   baremetalhost:///openshift-machine-api/openshift-control-plane-1/d9f9acbc-329c-475e-8d81-03b20280a3e1   externally provisioned
examplecluster-compute-0          Running                          165m    openshift-compute-0         baremetalhost:///openshift-machine-api/openshift-compute-0/3d685b81-7410-4bb3-80ec-13a31858241f         provisioned
examplecluster-compute-1          Running                          165m    openshift-compute-1         baremetalhost:///openshift-machine-api/openshift-compute-1/0fdae6eb-2066-4241-91dc-e7ea72ab13b9         provisioned

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、ノードが削除されたことを確認します。

oc get nodes

NAME                     STATUS ROLES   AGE   VERSION
openshift-control-plane-0 Ready master 3h24m v1.33.4
openshift-control-plane-1 Ready master 3h24m v1.33.4
openshift-compute-0       Ready worker 176m v1.33.4
openshift-compute-1       Ready worker 176m v1.33.4

$ oc get nodes

NAME                     STATUS ROLES   AGE   VERSION
openshift-control-plane-0 Ready master 3h24m v1.33.4
openshift-control-plane-1 Ready master 3h24m v1.33.4
openshift-compute-0       Ready worker 176m v1.33.4
openshift-compute-1       Ready worker 176m v1.33.4

Copy to Clipboard

Toggle word wrap

新しい BareMetalHost オブジェクトとシークレットを作成して BMC 認証情報を保存します。

cat <<EOF | oc apply -f -
apiVersion: v1
kind: Secret
metadata:
  name: openshift-control-plane-2-bmc-secret
  namespace: openshift-machine-api
data:
  password: <password>
  username: <username>
type: Opaque
---
apiVersion: metal3.io/v1alpha1
kind: BareMetalHost
metadata:
  name: openshift-control-plane-2
  namespace: openshift-machine-api
spec:
  automatedCleaningMode: disabled
  bmc:
    address: redfish://10.46.61.18:443/redfish/v1/Systems/1
    credentialsName: openshift-control-plane-2-bmc-secret
    disableCertificateVerification: true
  bootMACAddress: 48:df:37:b0:8a:a0
  bootMode: UEFI
  externallyProvisioned: false
  online: true
  rootDeviceHints:
    deviceName: /dev/disk/by-id/scsi-<serial_number>
  userData:
    name: master-user-data-managed
    namespace: openshift-machine-api
EOF

$ cat <<EOF | oc apply -f -
apiVersion: v1
kind: Secret
metadata:
  name: openshift-control-plane-2-bmc-secret
  namespace: openshift-machine-api
data:
  password: <password>
  username: <username>
type: Opaque
---
apiVersion: metal3.io/v1alpha1
kind: BareMetalHost
metadata:
  name: openshift-control-plane-2
  namespace: openshift-machine-api
spec:
  automatedCleaningMode: disabled
  bmc:
    address: redfish://10.46.61.18:443/redfish/v1/Systems/1
    credentialsName: openshift-control-plane-2-bmc-secret
    disableCertificateVerification: true
  bootMACAddress: 48:df:37:b0:8a:a0
  bootMode: UEFI
  externallyProvisioned: false
  online: true
  rootDeviceHints:
    deviceName: /dev/disk/by-id/scsi-<serial_number>
  userData:
    name: master-user-data-managed
    namespace: openshift-machine-api
EOF

Copy to Clipboard

Toggle word wrap

注記

ユーザー名とパスワードは、他のベアメタルホストのシークレットで確認できます。bmc:address で使用するプロトコルは、他の bmh オブジェクトから取得できます。

重要

既存のコントロールプレーンホストから BareMetalHost オブジェクト定義を再利用する場合は、externallyProvisioned フィールドを true に設定したままにしないでください。

既存のコントロールプレーン BareMetalHost オブジェクトが、OpenShift Container Platform インストールプログラムによってプロビジョニングされた場合には、externallyProvisioned フラグが true に設定されている可能性があります。

検査が完了すると、BareMetalHost オブジェクトが作成され、プロビジョニングできるようになります。

利用可能な BareMetalHost オブジェクトを使用して作成プロセスを確認します。

oc get bmh -n openshift-machine-api

NAME                      STATE                  CONSUMER                      ONLINE ERROR   AGE
openshift-control-plane-0 externally provisioned examplecluster-control-plane-0 true         4h48m
openshift-control-plane-1 externally provisioned examplecluster-control-plane-1 true         4h48m
openshift-control-plane-2 available              examplecluster-control-plane-3 true         47m
openshift-compute-0       provisioned            examplecluster-compute-0       true         4h48m
openshift-compute-1       provisioned            examplecluster-compute-1       true         4h48m

$ oc get bmh -n openshift-machine-api

NAME                      STATE                  CONSUMER                      ONLINE ERROR   AGE
openshift-control-plane-0 externally provisioned examplecluster-control-plane-0 true         4h48m
openshift-control-plane-1 externally provisioned examplecluster-control-plane-1 true         4h48m
openshift-control-plane-2 available              examplecluster-control-plane-3 true         47m
openshift-compute-0       provisioned            examplecluster-compute-0       true         4h48m
openshift-compute-1       provisioned            examplecluster-compute-1       true         4h48m

Copy to Clipboard

Toggle word wrap

新しいマシンが作成されたことを確認します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                   PHASE     TYPE   REGION   ZONE   AGE     NODE                              PROVIDERID                                                                                            STATE
examplecluster-control-plane-0         Running                          3h11m   openshift-control-plane-0   baremetalhost:///openshift-machine-api/openshift-control-plane-0/da1ebe11-3ff2-41c5-b099-0aa41222964e   externally provisioned 
examplecluster-control-plane-1         Running                          3h11m   openshift-control-plane-1   baremetalhost:///openshift-machine-api/openshift-control-plane-1/d9f9acbc-329c-475e-8d81-03b20280a3e1   externally provisioned
examplecluster-control-plane-2         Running                          3h11m   openshift-control-plane-2   baremetalhost:///openshift-machine-api/openshift-control-plane-2/3354bdac-61d8-410f-be5b-6a395b056135   externally provisioned
examplecluster-compute-0               Running                          165m    openshift-compute-0         baremetalhost:///openshift-machine-api/openshift-compute-0/3d685b81-7410-4bb3-80ec-13a31858241f         provisioned
examplecluster-compute-1               Running                          165m    openshift-compute-1         baremetalhost:///openshift-machine-api/openshift-compute-1/0fdae6eb-2066-4241-91dc-e7ea72ab13b9         provisioned

NAME                                   PHASE     TYPE   REGION   ZONE   AGE     NODE                              PROVIDERID                                                                                            STATE
examplecluster-control-plane-0         Running                          3h11m   openshift-control-plane-0   baremetalhost:///openshift-machine-api/openshift-control-plane-0/da1ebe11-3ff2-41c5-b099-0aa41222964e   externally provisioned


examplecluster-control-plane-1         Running                          3h11m   openshift-control-plane-1   baremetalhost:///openshift-machine-api/openshift-control-plane-1/d9f9acbc-329c-475e-8d81-03b20280a3e1   externally provisioned
examplecluster-control-plane-2         Running                          3h11m   openshift-control-plane-2   baremetalhost:///openshift-machine-api/openshift-control-plane-2/3354bdac-61d8-410f-be5b-6a395b056135   externally provisioned
examplecluster-compute-0               Running                          165m    openshift-compute-0         baremetalhost:///openshift-machine-api/openshift-compute-0/3d685b81-7410-4bb3-80ec-13a31858241f         provisioned
examplecluster-compute-1               Running                          165m    openshift-compute-1         baremetalhost:///openshift-machine-api/openshift-compute-1/0fdae6eb-2066-4241-91dc-e7ea72ab13b9         provisioned

Copy to Clipboard

Toggle word wrap

1: 新規マシン clustername-8qw5l-master-3 が作成され、Provisioning から Running にフェーズが変更されると準備状態になります。

新規マシンが作成されるまでに数分の時間がかかります。etcd クラスター Operator はマシンまたはノードが正常な状態に戻ると自動的に同期します。

以下のコマンドを実行して、ベアメタルホストがプロビジョニングされ、エラーが報告されていないことを確認します。

oc get bmh -n openshift-machine-api

$ oc get bmh -n openshift-machine-api

Copy to Clipboard

Toggle word wrap

出力例

oc get bmh -n openshift-machine-api
NAME                      STATE                  CONSUMER                       ONLINE ERROR AGE
openshift-control-plane-0 externally provisioned examplecluster-control-plane-0 true         4h48m
openshift-control-plane-1 externally provisioned examplecluster-control-plane-1 true         4h48m
openshift-control-plane-2 provisioned            examplecluster-control-plane-3 true          47m
openshift-compute-0       provisioned            examplecluster-compute-0       true         4h48m
openshift-compute-1       provisioned            examplecluster-compute-1       true         4h48m

$ oc get bmh -n openshift-machine-api
NAME                      STATE                  CONSUMER                       ONLINE ERROR AGE
openshift-control-plane-0 externally provisioned examplecluster-control-plane-0 true         4h48m
openshift-control-plane-1 externally provisioned examplecluster-control-plane-1 true         4h48m
openshift-control-plane-2 provisioned            examplecluster-control-plane-3 true          47m
openshift-compute-0       provisioned            examplecluster-compute-0       true         4h48m
openshift-compute-1       provisioned            examplecluster-compute-1       true         4h48m

Copy to Clipboard

Toggle word wrap

以下のコマンドを実行して、新規ノードが追加され、Ready の状態であることを確認します。

oc get nodes

$ oc get nodes

Copy to Clipboard

Toggle word wrap

出力例

oc get nodes
NAME                     STATUS ROLES   AGE   VERSION
openshift-control-plane-0 Ready master 4h26m v1.33.4
openshift-control-plane-1 Ready master 4h26m v1.33.4
openshift-control-plane-2 Ready master 12m   v1.33.4
openshift-compute-0       Ready worker 3h58m v1.33.4
openshift-compute-1       Ready worker 3h58m v1.33.4

$ oc get nodes
NAME                     STATUS ROLES   AGE   VERSION
openshift-control-plane-0 Ready master 4h26m v1.33.4
openshift-control-plane-1 Ready master 4h26m v1.33.4
openshift-control-plane-2 Ready master 12m   v1.33.4
openshift-compute-0       Ready worker 3h58m v1.33.4
openshift-compute-1       Ready worker 3h58m v1.33.4

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、クォーラムガードをオンに戻します。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

Copy to Clipboard

Toggle word wrap

次のコマンドを入力して、unsupportedConfigOverrides セクションがオブジェクトから削除されたことを確認できます。
```
oc get etcd/cluster -oyaml
```
```
$ oc get etcd/cluster -oyaml
```
Copy to Clipboard Toggle word wrap

出力例

EtcdCertSignerControllerDegraded: [Operation cannot be fulfilled on secrets "etcd-peer-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-metrics-sno-0": the object has been modified; please apply your changes to the latest version and try again]

EtcdCertSignerControllerDegraded: [Operation cannot be fulfilled on secrets "etcd-peer-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-sno-0": the object has been modified; please apply your changes to the latest version and try again, Operation cannot be fulfilled on secrets "etcd-serving-metrics-sno-0": the object has been modified; please apply your changes to the latest version and try again]

Copy to Clipboard

Toggle word wrap

検証

すべての etcd Pod が適切に実行されていることを確認します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc -n openshift-etcd get pods -l k8s-app=etcd
```
```
$ oc -n openshift-etcd get pods -l k8s-app=etcd
```
Copy to Clipboard Toggle word wrap
出力例
```
etcd-openshift-control-plane-0      5/5     Running     0     105m
etcd-openshift-control-plane-1      5/5     Running     0     107m
etcd-openshift-control-plane-2      5/5     Running     0     103m
```
```
etcd-openshift-control-plane-0      5/5     Running     0     105m
etcd-openshift-control-plane-1      5/5     Running     0     107m
etcd-openshift-control-plane-2      5/5     Running     0     103m
```
Copy to Clipboard Toggle word wrap
直前のコマンドの出力に 2 つの Pod のみがリスト表示される場合、etcd の再デプロイメントを手動で強制できます。クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge
```
```
$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge 
```
1
Copy to Clipboard Toggle word wrap
1
forceRedeploymentReason 値は一意である必要があります。そのため、タイムスタンプが付加されます。
etcd メンバーがちょうど 3 つあることを確認するには、実行中の etcd コンテナーに接続し、影響を受けたノード上になかった Pod の名前を渡します。クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
oc rsh -n openshift-etcd etcd-openshift-control-plane-0
```
```
$ oc rsh -n openshift-etcd etcd-openshift-control-plane-0
```
Copy to Clipboard Toggle word wrap

メンバーのリストを確認します。

etcdctl member list -w table

sh-4.2# etcdctl member list -w table

Copy to Clipboard

Toggle word wrap

出力例

+------------------+---------+--------------------+---------------------------+---------------------------+-----------------+
|        ID        | STATUS  |        NAME        |        PEER ADDRS         |       CLIENT ADDRS        |    IS LEARNER    |
+------------------+---------+--------------------+---------------------------+---------------------------+-----------------+
| 7a8197040a5126c8 | started | openshift-control-plane-2 | https://192.168.10.11:2380 | https://192.168.10.11:2379 |   false |
| 8d5abe9669a39192 | started | openshift-control-plane-1 | https://192.168.10.10:2380 | https://192.168.10.10:2379 |   false |
| cc3830a72fc357f9 | started | openshift-control-plane-0 | https://192.168.10.9:2380 | https://192.168.10.9:2379 |     false |
+------------------+---------+--------------------+---------------------------+---------------------------+-----------------+

+------------------+---------+--------------------+---------------------------+---------------------------+-----------------+
|        ID        | STATUS  |        NAME        |        PEER ADDRS         |       CLIENT ADDRS        |    IS LEARNER    |
+------------------+---------+--------------------+---------------------------+---------------------------+-----------------+
| 7a8197040a5126c8 | started | openshift-control-plane-2 | https://192.168.10.11:2380 | https://192.168.10.11:2379 |   false |
| 8d5abe9669a39192 | started | openshift-control-plane-1 | https://192.168.10.10:2380 | https://192.168.10.10:2379 |   false |
| cc3830a72fc357f9 | started | openshift-control-plane-0 | https://192.168.10.9:2380 | https://192.168.10.9:2379 |     false |
+------------------+---------+--------------------+---------------------------+---------------------------+-----------------+

Copy to Clipboard

Toggle word wrap

注記

直前のコマンドの出力に 4 つ以上の etcd メンバーが表示される場合、不要なメンバーを慎重に削除する必要があります。

以下のコマンドを実行して、すべての etcd メンバーが正常であることを確認します。

etcdctl endpoint health --cluster

# etcdctl endpoint health --cluster

Copy to Clipboard

Toggle word wrap

出力例

https://192.168.10.10:2379 is healthy: successfully committed proposal: took = 8.973065ms
https://192.168.10.9:2379 is healthy: successfully committed proposal: took = 11.559829ms
https://192.168.10.11:2379 is healthy: successfully committed proposal: took = 11.665203ms

https://192.168.10.10:2379 is healthy: successfully committed proposal: took = 8.973065ms
https://192.168.10.9:2379 is healthy: successfully committed proposal: took = 11.559829ms
https://192.168.10.11:2379 is healthy: successfully committed proposal: took = 11.665203ms

Copy to Clipboard

Toggle word wrap

以下のコマンドを実行して、すべてのノードが最新のリビジョンであることを確認します。

oc get etcd -o=jsonpath='{range.items[0].status.conditions[?(@.type=="NodeInstallerProgressing")]}{.reason}{"\n"}{.message}{"\n"}'

$ oc get etcd -o=jsonpath='{range.items[0].status.conditions[?(@.type=="NodeInstallerProgressing")]}{.reason}{"\n"}{.message}{"\n"}'

Copy to Clipboard

Toggle word wrap

AllNodesAtLatestRevision

AllNodesAtLatestRevision

Copy to Clipboard

Toggle word wrap

4.3. 障害復旧
リンクのコピー

この障害復旧ドキュメントでは、OpenShift Container Platform クラスターで発生する可能性のある複数の障害のある状態からの復旧方法に関する管理者向けの情報を提供しています。管理者は、クラスターの状態を機能する状態に戻すために、以下の 1 つまたは複数の手順を実行する必要がある場合があります。

重要

障害復旧には、少なくとも 1 つの正常なコントロールプレーンホストが必要です。

4.3.1. クォーラムの復元
リンクのコピー

quorum-restore.sh スクリプトを使用すると、クォーラムの喪失によりオフラインになっているクラスターの etcd クォーラムを復元できます。クォーラムが失われると、OpenShift Container Platform API が読み取り専用になります。クォーラムが復元されると、OpenShift Container Platform API は読み取り/書き込みモードに戻ります。

4.3.1.1. 高可用性クラスターの etcd クォーラムの復元
リンクのコピー

quorum-restore.sh スクリプトは、ローカルのデータディレクトリーに基づいてシングルメンバーの新しい etcd クラスターを即座に戻し、以前のクラスター識別子を廃止して他のすべてのメンバーを無効としてマークします。コントロールプレーンを復元するために事前のバックアップは必要ありません。

高可用性 (HA) クラスターの場合、3 ノードの HA クラスターでは、クラスターの分割を回避するために、2 つのホストで etcd をシャットダウンする必要があります。4 ノードおよび 5 ノードの HA クラスターでは、3 つのホストをシャットダウンする必要があります。クォーラムにはノードの単純過半数が必要です。3 ノードの HA クラスターのクォーラムに必要なノードの最小数は 2 です。4 ノードおよび 5 ノードの HA クラスターでは、クォーラムに必要なノードの最小数は 3 です。リカバリーホスト上のバックアップから新しいクラスターを起動すると、他の etcd メンバーがクォーラムを形成してサービスを継続できる可能性があります。

警告

復元を実行するホストにすべてのデータがレプリケートされていない場合、データが失われる可能性があります。

重要

クォーラムの復元は、復元プロセス外のノード数を減らすために使用しないでください。ノードの数を減らすと、サポート対象外のクラスター設定になります。

前提条件

クォーラムを復元するために使用するノードへの SSH アクセス権がある。

手順

リカバリーホストとして使用するコントロールプレーンホストを選択します。このホストで復元操作を実行します。
1. 次のコマンドを実行して、実行中の etcd Pod をリスト表示します。
  $ oc get pods -n openshift-etcd -l app=etcd --field-selector="status.phase==Running"
  Copy to Clipboard Toggle word wrap
2. Pod を 1 つ選択し、次のコマンドを実行してその IP アドレスを取得します。
  $ oc exec -n openshift-etcd <etcd-pod> -c etcdctl -- etcdctl endpoint status -w table
  Copy to Clipboard Toggle word wrap
  Raft インデックスが最も大きく、Learner ではないメンバーの IP アドレスをメモします。
3. 次のコマンドを実行し、選択した etcd メンバーの IP アドレスに対応するノード名をメモします。
  $ oc get nodes -o jsonpath='{range .items[*]}[{.metadata.name},{.status.addresses[?(@.type=="InternalIP")].address}]{end}'
  Copy to Clipboard Toggle word wrap
SSH を使用して、選択したリカバリーノードに接続し、次のコマンドを実行して etcd クォーラムを復元します。
```
sudo -E /usr/local/bin/quorum-restore.sh
```
```
$ sudo -E /usr/local/bin/quorum-restore.sh
```
Copy to Clipboard Toggle word wrap
数分後、ダウンしたノードが、リカバリースクリプトを実行したノードと自動的に同期されます。残りのオンラインのノードは、quorum-restore.sh スクリプトによって作成された新しい etcd クラスターに自動的に再参加します。このプロセスには数分かかります。
SSH セッションを終了します。

いずれかのノードがオフラインの場合は、3 ノード設定に戻ります。オフラインになっているノードごとに次の手順を繰り返して、ノードを削除し、再作成します。マシンが再作成された後、新しいリビジョンが強制され、etcd が自動的にスケールアップします。

ユーザーがプロビジョニングしたベアメタルインストールを使用する場合は、最初に作成したときと同じ方法を使用して、コントロールプレーンマシンを再作成できます。詳細は、「ユーザーによってプロビジョニングされるクラスターのベアメタルへのインストール」を参照してください。
警告
リカバリーホストのマシンを削除し、再作成しないでください。

installer-provisioned infrastructure を実行している場合、またはマシン API を使用してマシンを作成している場合は、以下の手順を実行します。

警告

リカバリーホストのマシンを削除し、再作成しないでください。

installer-provisioned infrastructure でのベアメタルインストールの場合、コントロールプレーンマシンは再作成されません。詳細は、「ベアメタルコントロールプレーンノードの交換」を参照してください。

いずれかのオフラインノードのマシンを取得します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-0                  Running   m4.xlarge   us-east-1   us-east-1a   3h37m   ip-10-0-131-183.ec2.internal   aws:///us-east-1a/i-0ec2782f8287dfb7e   stopped 
clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-143-125.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-154-194.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba  running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE     TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-0                  Running   m4.xlarge   us-east-1   us-east-1a   3h37m   ip-10-0-131-183.ec2.internal   aws:///us-east-1a/i-0ec2782f8287dfb7e   stopped


clustername-8qw5l-master-1                  Running   m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-143-125.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running   m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-154-194.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba  running
clustername-8qw5l-worker-us-east-1a-wbtgd   Running   m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running   m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running   m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

1: これは、オフラインノード ip-10-0-131-183.ec2.internal のコントロールプレーンマシンです。

次のコマンドを実行して、オフラインノードのマシンを削除します。
```
oc delete machine -n openshift-machine-api clustername-8qw5l-master-0
```
```
$ oc delete machine -n openshift-machine-api clustername-8qw5l-master-0 
```
1
Copy to Clipboard Toggle word wrap
1
オフラインノードのコントロールプレーンマシンの名前を指定します。
オフラインノードのマシンを削除すると、新しいマシンが自動的にプロビジョニングされます。

以下を実行して、新しいマシンが作成されたことを確認します。

oc get machines -n openshift-machine-api -o wide

$ oc get machines -n openshift-machine-api -o wide

Copy to Clipboard

Toggle word wrap

出力例

NAME                                        PHASE          TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running        m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-143-125.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running        m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-154-194.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba  running
clustername-8qw5l-master-3                  Provisioning   m4.xlarge   us-east-1   us-east-1a   85s     ip-10-0-173-171.ec2.internal    aws:///us-east-1a/i-015b0888fe17bc2c8  running 
clustername-8qw5l-worker-us-east-1a-wbtgd   Running        m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running        m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running        m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

NAME                                        PHASE          TYPE        REGION      ZONE         AGE     NODE                           PROVIDERID                              STATE
clustername-8qw5l-master-1                  Running        m4.xlarge   us-east-1   us-east-1b   3h37m   ip-10-0-143-125.ec2.internal   aws:///us-east-1b/i-096c349b700a19631   running
clustername-8qw5l-master-2                  Running        m4.xlarge   us-east-1   us-east-1c   3h37m   ip-10-0-154-194.ec2.internal    aws:///us-east-1c/i-02626f1dba9ed5bba  running
clustername-8qw5l-master-3                  Provisioning   m4.xlarge   us-east-1   us-east-1a   85s     ip-10-0-173-171.ec2.internal    aws:///us-east-1a/i-015b0888fe17bc2c8  running


clustername-8qw5l-worker-us-east-1a-wbtgd   Running        m4.large    us-east-1   us-east-1a   3h28m   ip-10-0-129-226.ec2.internal   aws:///us-east-1a/i-010ef6279b4662ced   running
clustername-8qw5l-worker-us-east-1b-lrdxb   Running        m4.large    us-east-1   us-east-1b   3h28m   ip-10-0-144-248.ec2.internal   aws:///us-east-1b/i-0cb45ac45a166173b   running
clustername-8qw5l-worker-us-east-1c-pkg26   Running        m4.large    us-east-1   us-east-1c   3h28m   ip-10-0-170-181.ec2.internal   aws:///us-east-1c/i-06861c00007751b0a   running

Copy to Clipboard

Toggle word wrap

1: 新規マシン clustername-8qw5l-master-3 が作成され、Provisioning から Running にフェーズが変更されると準備状態になります。

オフラインになっているノードごとに上記の手順を繰り返します。

次のコマンドを実行して、コントロールプレーンが回復するまで待ちます。
```
oc adm wait-for-stable-cluster
```
```
$ oc adm wait-for-stable-cluster
```
Copy to Clipboard Toggle word wrap
注記
コントロールプレーンが回復するまでに最大 15 分かかります。

トラブルシューティング

etcd 静的 Pod のロールアウトが進行していない場合は、次のコマンドを実行して、etcd クラスター Operator から強制的に再デプロイを実行できます。
```
oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$(date --rfc-3339=ns )"'"}}' --type=merge
```
```
$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$(date --rfc-3339=ns )"'"}}' --type=merge
```
Copy to Clipboard Toggle word wrap

注記

コントロールプレーンノードの大部分がまだ使用可能であり、etcd のクォーラムがある場合は、1 つの異常な etcd メンバーを置き換えます。

4.3.2. 以前のクラスター状態への復元
リンクのコピー

クラスターを以前の状態に復元するには、スナップショットを作成して etcd データを事前にバックアップしておく必要があります。このスナップショットを使用して、クラスターの状態を復元します。詳細は、「etcd データのバックアップ」を参照してください。

該当する場合は、コントロールプレーン証明書の期限切れの状態からのリカバリーが必要になる場合もあります。

警告

以前のクラスター状態に復元することは、実行中のクラスターを不安定な状態にする破壊的な操作です。この手順は、最後の手段としてのみ使用してください。

復元を実行する前に、クラスターへの影響の詳細について、「以前のクラスター状態への復元について」を参照してください。

4.3.2.1. 以前のクラスター状態への復元について
リンクのコピー

etcd バックアップを使用して、クラスターを直前の状態に復元できます。これは、以下の状況から回復するために使用できます。

クラスターは、大多数のコントロールプレーンホストを失いました (クォーラムの喪失)。
管理者が重要なものを削除し、クラスターを復旧するために復元する必要があります。

警告

以前のクラスター状態に復元することは、実行中のクラスターを不安定な状態にする破壊的な操作です。これは、最後の手段としてのみ使用してください。

Kubernetes API サーバーを使用してデータを取得できる場合は、etcd が利用できるため、etcd バックアップを使用して復元することはできません。

etcd を効果的に復元すると、クラスターが時間内に元に戻され、すべてのクライアントは競合する並列履歴が発生します。これは、kubelet、Kubernetes コントローラーマネージャー、永続ボリュームコントローラー、OpenShift Container Platform Operator (ネットワーク Operator を含む) などの監視コンポーネントの動作に影響を与える可能性があります。

etcd のコンテンツがディスク上の実際のコンテンツと一致しないと、Operator チャーンが発生し、ディスク上のファイルが etcd のコンテンツと競合すると、Kubernetes API サーバー、Kubernetes コントローラーマネージャー、Kubernetes スケジューラーなどの Operator が停止する場合があります。この場合は、問題の解決に手動のアクションが必要になる場合があります。

極端な場合、クラスターは永続ボリュームを追跡できなくなり、存在しなくなった重要なワークロードを削除し、マシンのイメージを再作成し、期限切れの証明書を使用して CA バンドルを書き換えることができます。

4.3.2.2. シングルノードで以前のクラスター状態に復元する
リンクのコピー

保存された etcd バックアップを使用して、シングルノードでクラスターの以前の状態を復元できます。

重要

クラスターを復元する際に、同じ z-stream リリースから取得した etcd バックアップを使用する必要があります。たとえば、OpenShift Container Platform 4.20.2 クラスターは、4.20.2 から取得した etcd バックアップを使用する必要があります。

前提条件

インストール時に使用したものと同様、証明書ベースの kubeconfig ファイルを介して、cluster-admin ロールを持つユーザーとしてクラスターにアクセスします。
コントロールプレーンホストへの SSH アクセス権がある。
etcd スナップショットと静的 Pod のリソースの両方を含むバックアップディレクトリー (同じバックアップから取られるもの)。ディレクトリー内のファイル名は、snapshot_<datetimestamp>.db および static_kuberesources_<datetimestamp>.tar.gz の形式にする必要があります。

手順

SSH を使用してシングルノードに接続し、次のコマンドを実行して etcd バックアップを /home/core ディレクトリーにコピーします。
```
cp <etcd_backup_directory> /home/core
```
```
$ cp <etcd_backup_directory> /home/core
```
Copy to Clipboard Toggle word wrap
シングルノードで次のコマンドを実行し、以前のバックアップからクラスターを復元します。
```
sudo -E /usr/local/bin/cluster-restore.sh /home/core/<etcd_backup_directory>
```
```
$ sudo -E /usr/local/bin/cluster-restore.sh /home/core/<etcd_backup_directory>
```
Copy to Clipboard Toggle word wrap
SSH セッションを終了します。
次のコマンドを実行して、コントロールプレーンの回復の進行状況を監視します。
```
oc adm wait-for-stable-cluster
```
```
$ oc adm wait-for-stable-cluster
```
Copy to Clipboard Toggle word wrap
注記
コントロールプレーンが回復するまでに最大 15 分かかります。

4.3.2.3. 複数のノードの以前のクラスター状態への復元
リンクのコピー

保存された etcd のバックアップを使用して、クラスターの以前の状態を復元したり、大多数のコントロールプレーンホストが失われたクラスターを復元したりできます。

注記

クラスターがコントロールプレーンマシンセットを使用している場合は、「コントロールプレーンマシンセットのトラブルシューティング」の「劣化した etcd Operator のリカバリー」で etcd のリカバリー手順を参照してください。シングルノード上の OpenShift Container Platform は、「シングルノードで以前のクラスター状態に復元する」を参照してください。

重要

前提条件

インストール時に使用したものと同様、証明書ベースの kubeconfig ファイルを介して、cluster-admin ロールを持つユーザーとしてクラスターにアクセスします。
リカバリーホストとして使用する正常なコントロールプレーンホストがあること。
コントロールプレーンホストへの SSH アクセス権がある。
etcd スナップショットと静的 Pod のリソースの両方を含むバックアップディレクトリー (同じバックアップから取られるもの)。ディレクトリー内のファイル名は、snapshot_<datetimestamp>.db および static_kuberesources_<datetimestamp>.tar.gz の形式にする必要があります。
ノードはアクセス可能またはブート可能である。

重要

非リカバリーコントロールプレーンノードの場合は、SSH 接続を確立したり、静的 Pod を停止したりする必要はありません。他のリカバリー以外のコントロールプレーンマシンを 1 つずつ削除し、再作成します。

手順

リカバリーホストとして使用するコントロールプレーンホストを選択します。これは、復元操作の実行対象とするホストです。
リカバリーホストを含む、各コントロールプレーンノードへの SSH 接続を確立します。
kube-apiserver は復元プロセスの開始後にアクセスできなくなるため、コントロールプレーンノードにはアクセスできません。このため、別のターミナルで各コントロールプレーンホストに SSH 接続を確立することが推奨されます。
重要
この手順を完了しないと、復元手順を完了するためにコントロールプレーンホストにアクセスすることができなくなり、この状態からクラスターを回復できなくなります。
SSH を使用して各コントロールプレーンノードに接続し、次のコマンドを実行して etcd を無効にします。
```
sudo -E /usr/local/bin/disable-etcd.sh
```
```
$ sudo -E /usr/local/bin/disable-etcd.sh
```
Copy to Clipboard Toggle word wrap
etcd バックアップディレクトリーをリカバリーコントロールプレーンホストにコピーします。
この手順では、etcd スナップショットおよび静的 Pod のリソースを含む backup ディレクトリーを、リカバリーコントロールプレーンホストの /home/core/ ディレクトリーにコピーしていることを前提としています。
SSH を使用してリカバリーホストに接続し、次のコマンドを実行して以前のバックアップからクラスターを復元します。
```
sudo -E /usr/local/bin/cluster-restore.sh /home/core/<etcd-backup-directory>
```
```
$ sudo -E /usr/local/bin/cluster-restore.sh /home/core/<etcd-backup-directory>
```
Copy to Clipboard Toggle word wrap
SSH セッションを終了します。

API が応答したら、次のコマンドを実行して etcd Operator のクォーラムガードをオフにします。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": {"useUnsupportedUnsafeNonHANonProductionUnstableEtcd": true}}}'

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、コントロールプレーンの回復の進行状況を監視します。
```
oc adm wait-for-stable-cluster
```
```
$ oc adm wait-for-stable-cluster
```
Copy to Clipboard Toggle word wrap
注記
コントロールプレーンが回復するまでに最大 15 分かかります。

回復したら、次のコマンドを実行してクォーラムガードを有効にします。

oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

$ oc patch etcd/cluster --type=merge -p '{"spec": {"unsupportedConfigOverrides": null}}'

Copy to Clipboard

Toggle word wrap

トラブルシューティング

etcd 静的 Pod のロールアウトが進行していない場合は、次のコマンドを実行して、cluster-etcd-operator から強制的に再デプロイを実行できます。

oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$(date --rfc-3339=ns )"'"}}' --type=merge

$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "recovery-'"$(date --rfc-3339=ns )"'"}}' --type=merge

Copy to Clipboard

Toggle word wrap

4.3.2.4. etcd バックアップからのクラスターの手動復元
リンクのコピー

「以前のクラスター状態への復元」セクションで説明されている復元手順は次のとおりです。

2 つのコントロールプレーンノードを完全に再作成する必要があります。ただし、UPI インストール方式でインストールされたクラスターでは複雑な手順になる可能性があります。UPI インストールでは、コントロールプレーンノード用の Machine または ControlPlaneMachineset が作成されないためです。
/usr/local/bin/cluster-restore.sh スクリプトを使用して、シングルメンバーの新しい etcd クラスターを起動し、それを 3 つのメンバーに拡張します。

これに対し、この手順は次の点が異なります。

コントロールプレーンノードを再作成する必要はありません。
3 つのメンバーからなる etcd クラスターを直接起動します。

クラスターがコントロールプレーンに MachineSet を使用する場合は、etcd の回復手順を簡素化するために、「以前のクラスター状態への復元」を使用することを推奨します。

クラスターを復元する際に、同じ z-stream リリースから取得した etcd バックアップを使用する必要があります。たとえば、OpenShift Container Platform 4.7.2 クラスターは、4.7.2 から取得した etcd バックアップを使用する必要があります。

前提条件

cluster-admin ロールを持つユーザー (例: kubeadmin ユーザー) としてクラスターにアクセスします。
すべて のコントロールプレーンホストへの SSH アクセス権があり、ホストユーザーが root (デフォルトの core ホストユーザーなど) になることが許可されている。
同じバックアップからの以前の etcd スナップショットと静的 Pod のリソースの両方を含むバックアップディレクトリー。ディレクトリー内のファイル名は、snapshot_<datetimestamp>.db および static_kuberesources_<datetimestamp>.tar.gz の形式にする必要があります。

手順

SSH を使用して各コントロールプレーンノードに接続します。
Kubernetes API サーバーは復元プロセスの開始後にアクセスできなくなるため、コントロールプレーンノードにはアクセスできません。このため、アクセスするコントロールプレーンホストごとに、別のターミナルで SSH 接続を使用することを推奨します。
重要
この手順を完了しないと、復元手順を完了するためにコントロールプレーンホストにアクセスすることができなくなり、この状態からクラスターを回復できなくなります。
etcd バックアップディレクトリーを各コントロールプレーンホストにコピーします。
この手順では、etcd スナップショットと静的 Pod のリソースを含む backup ディレクトリーを各コントロールプレーンホストの /home/core/assets ディレクトリーにコピーしていることを前提としています。この assets フォルダーがまだ存在しない場合は、作成する必要がある場合があります。
すべてのコントロールプレーンノード上の静的 Pod を、一度に 1 つのホストずつ停止します。
1. 既存の Kubernetes API サーバーの静的 Pod マニフェストを kubelet マニフェストディレクトリーから移動します。
  $ mkdir -p /root/manifests-backup
  Copy to Clipboard Toggle word wrap
  $ mv /etc/kubernetes/manifests/kube-apiserver-pod.yaml /root/manifests-backup/
  Copy to Clipboard Toggle word wrap
2. 次のコマンドを使用して、Kubernetes API Server コンテナーが停止したことを確認します。
  $ crictl ps | grep kube-apiserver | grep -E -v "operator|guard"
  Copy to Clipboard Toggle word wrap
  コマンドの出力は空であるはずです。空でない場合は、数分待機してから再度確認します。
3. Kubernetes API サーバーコンテナーがまだ実行中の場合は、次のコマンドを使用して手動で終了します。
  $ crictl stop <container_id>
  Copy to Clipboard Toggle word wrap
4. 同じ手順を、kube-controller-manager-pod.yaml、kube-scheduler-pod.yaml、最後に etcd-pod.yaml に対して繰り返します。
  1. 次のコマンドで kube-controller-manager Pod を停止します。
    
    $ mv /etc/kubernetes/manifests/kube-controller-manager-pod.yaml /root/manifests-backup/
    
    Copy to Clipboard Toggle word wrap
  2. 次のコマンドを使用して、コンテナーが停止しているかどうかを確認します。
    
    $ crictl ps | grep kube-controller-manager | grep -E -v "operator|guard"
    
    Copy to Clipboard Toggle word wrap
  3. 次のコマンドを使用して、kube-scheduler Pod を停止します。
    
    $ mv /etc/kubernetes/manifests/kube-scheduler-pod.yaml /root/manifests-backup/
    
    Copy to Clipboard Toggle word wrap
  4. 次のコマンドを使用して、コンテナーが停止しているかどうかを確認します。
    
    $ crictl ps | grep kube-scheduler | grep -E -v "operator|guard"
    
    Copy to Clipboard Toggle word wrap
  5. 次のコマンドを使用して etcd Pod を停止します。
    
    $ mv /etc/kubernetes/manifests/etcd-pod.yaml /root/manifests-backup/
    
    Copy to Clipboard Toggle word wrap
  6. 次のコマンドを使用して、コンテナーが停止しているかどうかを確認します。
    
    $ crictl ps | grep etcd | grep -E -v "operator|guard"
    
    Copy to Clipboard Toggle word wrap
各コントロールプレーンホストで、現在の etcd データを backup フォルダーに移動して保存します。
```
mkdir /home/core/assets/old-member-data
```
```
$ mkdir /home/core/assets/old-member-data
```
Copy to Clipboard Toggle word wrap
```
mv /var/lib/etcd/member /home/core/assets/old-member-data
```
```
$ mv /var/lib/etcd/member /home/core/assets/old-member-data
```
Copy to Clipboard Toggle word wrap
このデータは、etcd バックアップの復元が機能せず、etcd クラスターを現在の状態に復元する必要がある場合に役立ちます。
各コントロールプレーンホストの正しい etcd パラメーターを確認します。
1. <ETCD_NAME> の値は、各コントロールプレーンホストごとに一意であり、特定のコントロールプレーンホストのマニフェスト /etc/kubernetes/static-pod-resources/etcd-certs/configmaps/restore-etcd-pod/pod.yaml ファイル内にある ETCD_NAME 変数の値と同じです。次のコマンドで確認できます。
  RESTORE_ETCD_POD_YAML="/etc/kubernetes/static-pod-resources/etcd-certs/configmaps/restore-etcd-pod/pod.yaml" cat $RESTORE_ETCD_POD_YAML | \ grep -A 1 $(cat $RESTORE_ETCD_POD_YAML | grep 'export ETCD_NAME' | grep -Eo 'NODE_.+_ETCD_NAME') | \ grep -Po '(?<=value: ").+(?=")'
  Copy to Clipboard Toggle word wrap
2. <UUID> の値は、次のコマンドを使用してコントロールプレーンホストで生成できます。
  $ uuidgen
  Copy to Clipboard Toggle word wrap
  注記
  <UUID> の値は 1 回だけ生成する必要があります。1 つのコントロールプレーンホストで UUID を生成した後あ、他のホストで再度生成しないでください。次の手順では、すべてのコントロールプレーンホストで同じ UUID を使用します。
3. ETCD_NODE_PEER_URL の値は、次の例のように設定する必要があります。
  https://<IP_CURRENT_HOST>:2380
  Copy to Clipboard Toggle word wrap
  正しい IP は、次のコマンドを使用して、特定のコントロールプレーンホストの <ETCD_NAME> から確認できます。
  $ echo <ETCD_NAME> | \ sed -E 's/[.-]/_/g' | \ xargs -I {} grep {} /etc/kubernetes/static-pod-resources/etcd-certs/configmaps/etcd-scripts/etcd.env | \ grep "IP" | grep -Po '(?<=").+(?=")'
  Copy to Clipboard Toggle word wrap
4. <ETCD_INITIAL_CLUSTER> の値は、次のように設定する必要があります。<ETCD_NAME_n> は各コントロールプレーンホストの <ETCD_NAME> です。
  注記
  使用するポートは 2379 ではなく 2380 である必要があります。ポート 2379 は etcd データベース管理に使用され、コンテナー内の etcd 起動コマンドで直接設定されます。
  出力例
  <ETCD_NAME_0>=<ETCD_NODE_PEER_URL_0>,<ETCD_NAME_1>=<ETCD_NODE_PEER_URL_1>,<ETCD_NAME_2>=<ETCD_NODE_PEER_URL_2>
  1
  
  Copy to Clipboard Toggle word wrap
  1
  各コントロールプレーンホストの ETCD_NODE_PEER_URL 値を指定します。
  <ETCD_INITIAL_CLUSTER> 値は、すべてのコントロールプレーンホストで同じです。次の手順では、すべてのコントロールプレーンホストで同じ値が必要です。

バックアップから etcd データベースを再生成します。

この操作は、各コントロールプレーンホストで実行する必要があります。

次のコマンドを使用して、etcd バックアップを /var/lib/etcd ディレクトリーにコピーします。
```
cp /home/core/assets/backup/<snapshot_yyyy-mm-dd_hhmmss>.db /var/lib/etcd
```
```
$ cp /home/core/assets/backup/<snapshot_yyyy-mm-dd_hhmmss>.db /var/lib/etcd
```
Copy to Clipboard Toggle word wrap

続行する前に、正しい etcdctl イメージを特定します。次のコマンドを使用して、Pod マニフェストのバックアップからイメージを取得します。

jq -r '.spec.containers[]|select(.name=="etcdctl")|.image' /root/manifests-backup/etcd-pod.yaml

$ jq -r '.spec.containers[]|select(.name=="etcdctl")|.image' /root/manifests-backup/etcd-pod.yaml

Copy to Clipboard

Toggle word wrap

podman run --rm -it --entrypoint="/bin/bash" -v /var/lib/etcd:/var/lib/etcd:z <image-hash>

$ podman run --rm -it --entrypoint="/bin/bash" -v /var/lib/etcd:/var/lib/etcd:z <image-hash>

Copy to Clipboard

Toggle word wrap

etcdctl ツールのバージョンが、バックアップが作成された etcd サーバーのバージョンであることを確認します。
```
etcdctl version
```
```
$ etcdctl version
```
Copy to Clipboard Toggle word wrap

現在のホストの正しい値を使用して次のコマンドを実行し、etcd データベースを再生成します。

ETCDCTL_API=3 /usr/bin/etcdctl snapshot restore /var/lib/etcd/<snapshot_yyyy-mm-dd_hhmmss>.db \
  --name "<ETCD_NAME>" \
  --initial-cluster="<ETCD_INITIAL_CLUSTER>" \
  --initial-cluster-token "openshift-etcd-<UUID>" \
  --initial-advertise-peer-urls "<ETCD_NODE_PEER_URL>" \
  --data-dir="/var/lib/etcd/restore-<UUID>" \
  --skip-hash-check=true

$ ETCDCTL_API=3 /usr/bin/etcdctl snapshot restore /var/lib/etcd/<snapshot_yyyy-mm-dd_hhmmss>.db \
  --name "<ETCD_NAME>" \
  --initial-cluster="<ETCD_INITIAL_CLUSTER>" \
  --initial-cluster-token "openshift-etcd-<UUID>" \
  --initial-advertise-peer-urls "<ETCD_NODE_PEER_URL>" \
  --data-dir="/var/lib/etcd/restore-<UUID>" \
  --skip-hash-check=true

Copy to Clipboard

Toggle word wrap

注記

etcd データベースを再生成する場合、引用符は必須です。

added member ログに出力される値を記録します。次に例を示します。

出力例

2022-06-28T19:52:43Z    info    membership/cluster.go:421   added member    {"cluster-id": "c5996b7c11c30d6b", "local-member-id": "0", "added-peer-id": "56cd73b614699e7", "added-peer-peer-urls": ["https://10.0.91.5:2380"], "added-peer-is-learner": false}
2022-06-28T19:52:43Z    info    membership/cluster.go:421   added member    {"cluster-id": "c5996b7c11c30d6b", "local-member-id": "0", "added-peer-id": "1f63d01b31bb9a9e", "added-peer-peer-urls": ["https://10.0.90.221:2380"], "added-peer-is-learner": false}
2022-06-28T19:52:43Z    info    membership/cluster.go:421   added member    {"cluster-id": "c5996b7c11c30d6b", "local-member-id": "0", "added-peer-id": "fdc2725b3b70127c", "added-peer-peer-urls": ["https://10.0.94.214:2380"], "added-peer-is-learner": false}

2022-06-28T19:52:43Z    info    membership/cluster.go:421   added member    {"cluster-id": "c5996b7c11c30d6b", "local-member-id": "0", "added-peer-id": "56cd73b614699e7", "added-peer-peer-urls": ["https://10.0.91.5:2380"], "added-peer-is-learner": false}
2022-06-28T19:52:43Z    info    membership/cluster.go:421   added member    {"cluster-id": "c5996b7c11c30d6b", "local-member-id": "0", "added-peer-id": "1f63d01b31bb9a9e", "added-peer-peer-urls": ["https://10.0.90.221:2380"], "added-peer-is-learner": false}
2022-06-28T19:52:43Z    info    membership/cluster.go:421   added member    {"cluster-id": "c5996b7c11c30d6b", "local-member-id": "0", "added-peer-id": "fdc2725b3b70127c", "added-peer-peer-urls": ["https://10.0.94.214:2380"], "added-peer-is-learner": false}

Copy to Clipboard

Toggle word wrap

コンテナーから出ます。
この手順を他のコントロールプレーンホストでも繰り返し、added member ログに出力される値がすべてのコントロールプレーンホストで同じであることを確認します。

再生成された etcd データベースをデフォルトの場所に移動します。
この操作は、各コントロールプレーンホストで実行する必要があります。
1. 再生成されたデータベース (以前の etcdctl snapshot restore コマンドによって作成された member フォルダー) を、デフォルトの etcd の場所 /var/lib/etcd に移動します。
  $ mv /var/lib/etcd/restore-<UUID>/member /var/lib/etcd
  Copy to Clipboard Toggle word wrap
2. /var/lib/etcd ディレクトリーの /var/lib/etcd/member フォルダーの SELinux コンテキストを復元します。
  $ restorecon -vR /var/lib/etcd/
  Copy to Clipboard Toggle word wrap
3. 残りのファイルとディレクトリーを削除します。
  $ rm -rf /var/lib/etcd/restore-<UUID>
  Copy to Clipboard Toggle word wrap
  $ rm /var/lib/etcd/<snapshot_yyyy-mm-dd_hhmmss>.db
  Copy to Clipboard Toggle word wrap
  重要
  完了すると、/var/lib/etcd ディレクトリーに含まれるフォルダーが member だけになります。
4. 他のコントロールプレーンホストでもこの手順を繰り返します。

etcd クラスターを再起動します。

次の手順は、すべてのコントロールプレーンホストで実行する必要があります。ただし、一度に 1 つのホストずつ 実行する必要があります。
kubelet が関連コンテナーを起動するように、etcd 静的 Pod マニフェストを kubelet マニフェストディレクトリーに戻します。
```
mv /root/manifests-backup/etcd-pod.yaml /etc/kubernetes/manifests
```
```
$ mv /root/manifests-backup/etcd-pod.yaml /etc/kubernetes/manifests
```
Copy to Clipboard Toggle word wrap

すべての etcd コンテナーが起動していることを確認します。

crictl ps | grep etcd | grep -v operator

$ crictl ps | grep etcd | grep -v operator

Copy to Clipboard

Toggle word wrap

出力例

38c814767ad983       f79db5a8799fd2c08960ad9ee22f784b9fbe23babe008e8a3bf68323f004c840                                                         28 seconds ago       Running             etcd-health-monitor                   2                   fe4b9c3d6483c
e1646b15207c6       9d28c15860870e85c91d0e36b45f7a6edd3da757b113ec4abb4507df88b17f06                                                         About a minute ago   Running             etcd-metrics                          0                   fe4b9c3d6483c
08ba29b1f58a7       9d28c15860870e85c91d0e36b45f7a6edd3da757b113ec4abb4507df88b17f06                                                         About a minute ago   Running             etcd                                  0                   fe4b9c3d6483c
2ddc9eda16f53       9d28c15860870e85c91d0e36b45f7a6edd3da757b113ec4abb4507df88b17f06                                                         About a minute ago   Running             etcdctl

38c814767ad983       f79db5a8799fd2c08960ad9ee22f784b9fbe23babe008e8a3bf68323f004c840                                                         28 seconds ago       Running             etcd-health-monitor                   2                   fe4b9c3d6483c
e1646b15207c6       9d28c15860870e85c91d0e36b45f7a6edd3da757b113ec4abb4507df88b17f06                                                         About a minute ago   Running             etcd-metrics                          0                   fe4b9c3d6483c
08ba29b1f58a7       9d28c15860870e85c91d0e36b45f7a6edd3da757b113ec4abb4507df88b17f06                                                         About a minute ago   Running             etcd                                  0                   fe4b9c3d6483c
2ddc9eda16f53       9d28c15860870e85c91d0e36b45f7a6edd3da757b113ec4abb4507df88b17f06                                                         About a minute ago   Running             etcdctl

Copy to Clipboard

Toggle word wrap

このコマンドの出力が空の場合は、数分待ってからもう一度確認してください。

etcd クラスターのステータスを確認します。

いずれかのコントロールプレーンホストで、次のコマンドを使用して etcd クラスターのステータスを確認します。

crictl exec -it $(crictl ps | grep etcdctl | awk '{print $1}') etcdctl endpoint status -w table

$ crictl exec -it $(crictl ps | grep etcdctl | awk '{print $1}') etcdctl endpoint status -w table

Copy to Clipboard

Toggle word wrap

出力例

+--------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|         ENDPOINT         |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+--------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
| https://10.0.89.133:2379 | 682e4a83a0cec6c0 |   3.5.0 |   67 MB |      true |      false |         2 |        218 |                218 |        |
|  https://10.0.92.74:2379 | 450bcf6999538512 |   3.5.0 |   67 MB |     false |      false |         2 |        218 |                218 |        |
| https://10.0.93.129:2379 | 358efa9c1d91c3d6 |   3.5.0 |   67 MB |     false |      false |         2 |        218 |                218 |        |
+--------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

+--------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
|         ENDPOINT         |        ID        | VERSION | DB SIZE | IS LEADER | IS LEARNER | RAFT TERM | RAFT INDEX | RAFT APPLIED INDEX | ERRORS |
+--------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+
| https://10.0.89.133:2379 | 682e4a83a0cec6c0 |   3.5.0 |   67 MB |      true |      false |         2 |        218 |                218 |        |
|  https://10.0.92.74:2379 | 450bcf6999538512 |   3.5.0 |   67 MB |     false |      false |         2 |        218 |                218 |        |
| https://10.0.93.129:2379 | 358efa9c1d91c3d6 |   3.5.0 |   67 MB |     false |      false |         2 |        218 |                218 |        |
+--------------------------+------------------+---------+---------+-----------+------------+-----------+------------+--------------------+--------+

Copy to Clipboard

Toggle word wrap

他の静的 Pod を再起動します。

次の手順は、すべてのコントロールプレーンホストで実行する必要があります。ただし、一度に 1 つのホストずつ実行する必要があります。

次のコマンドを使用して、Kubernetes API サーバーの静的 Pod マニフェストを kubelet マニフェストディレクトリーに戻し、kubelet が関連するコンテナーを起動するようにします。
```
mv /root/manifests-backup/kube-apiserver-pod.yaml /etc/kubernetes/manifests
```
```
$ mv /root/manifests-backup/kube-apiserver-pod.yaml /etc/kubernetes/manifests
```
Copy to Clipboard Toggle word wrap
すべての Kubernetes API サーバーコンテナーが起動したことを確認します。
```
crictl ps | grep kube-apiserver | grep -v operator
```
```
$ crictl ps | grep kube-apiserver | grep -v operator
```
Copy to Clipboard Toggle word wrap
注記
次のコマンドの出力が空の場合は、数分待ってからもう一度確認してください。

同じ手順を、kube-controller-manager-pod.yaml ファイルと kube-scheduler-pod.yaml ファイルに対して繰り返します。

次のコマンドを使用して、すべてのノードで kubelet を再起動します。
```
systemctl restart kubelet
```
```
$ systemctl restart kubelet
```
Copy to Clipboard Toggle word wrap
次のコマンドを使用して、残りのコントロールプレーン Pod を起動します。
```
mv /root/manifests-backup/kube-* /etc/kubernetes/manifests/
```
```
$ mv /root/manifests-backup/kube-* /etc/kubernetes/manifests/
```
Copy to Clipboard Toggle word wrap

kube-apiserver、kube-scheduler、および kube-controller-manager Pod が正しく起動しているかどうかを確認します。

crictl ps | grep -E 'kube-(apiserver|scheduler|controller-manager)' | grep -v -E 'operator|guard'

$ crictl ps | grep -E 'kube-(apiserver|scheduler|controller-manager)' | grep -v -E 'operator|guard'

Copy to Clipboard

Toggle word wrap

次のコマンドを使用して OVN データベースをワイプします。

for NODE in  $(oc get node -o name | sed 's:node/::g')
do
  oc debug node/${NODE} -- chroot /host /bin/bash -c  'rm -f /var/lib/ovn-ic/etc/ovn*.db && systemctl restart ovs-vswitchd ovsdb-server'
  oc -n openshift-ovn-kubernetes delete pod -l app=ovnkube-node --field-selector=spec.nodeName=${NODE} --wait
  oc -n openshift-ovn-kubernetes wait pod -l app=ovnkube-node --field-selector=spec.nodeName=${NODE} --for condition=ContainersReady --timeout=600s
done

for NODE in  $(oc get node -o name | sed 's:node/::g')
do
  oc debug node/${NODE} -- chroot /host /bin/bash -c  'rm -f /var/lib/ovn-ic/etc/ovn*.db && systemctl restart ovs-vswitchd ovsdb-server'
  oc -n openshift-ovn-kubernetes delete pod -l app=ovnkube-node --field-selector=spec.nodeName=${NODE} --wait
  oc -n openshift-ovn-kubernetes wait pod -l app=ovnkube-node --field-selector=spec.nodeName=${NODE} --for condition=ContainersReady --timeout=600s
done

Copy to Clipboard

Toggle word wrap

4.3.2.5. 永続ストレージの状態復元に関する問題および回避策
リンクのコピー

OpenShift Container Platform クラスターがいずれかの形式の永続ストレージを使用する場合に、クラスターの状態は通常 etcd 外に保存されます。etcd バックアップから復元する場合には、OpenShift Container Platform のワークロードのステータスも復元されます。ただし、etcd スナップショットが古い場合には、ステータスは無効または期限切れの可能性があります。

重要

永続ボリューム (PV) の内容は etcd スナップショットには含まれません。etcd スナップショットから OpenShift Container Platform クラスターを復元する時に、重要ではないワークロードから重要なデータにアクセスしたり、その逆ができたりする場合があります。

以下は、古いステータスを生成するシナリオ例です。

MySQL データベースが PV オブジェクトでバックアップされる Pod で実行されている。etcd スナップショットから OpenShift Container Platform を復元すると、Pod の起動を繰り返し試行しても、ボリュームをストレージプロバイダーに戻したり、実行中の MySQL Pod が生成したりされるわけではありません。この Pod は、ストレージプロバイダーでボリュームを復元し、次に PV を編集して新規ボリュームを参照するように手動で復元する必要があります。
Pod P1 は、ノード X に割り当てられているボリューム A を使用している。別の Pod がノード Y にある同じボリュームを使用している場合に etcd スナップショットが作成された場合に、etcd の復元が実行されると、ボリュームがノード Y に割り当てられていることが原因で Pod P1 が正常に起動できなくなる可能性があります。OpenShift Container Platform はこの割り当てを認識せず、ボリュームが自動的に切り離されるわけではありません。これが生じる場合には、ボリュームをノード Y から手動で切り離し、ノード X に割り当ててることで Pod P1 を起動できるようにします。
クラウドプロバイダーまたはストレージプロバイダーの認証情報が etcd スナップショットの作成後に更新された。これが原因で、プロバイダーの認証情報に依存する CSI ドライバーまたは Operator が機能しなくなります。これらのドライバーまたは Operator で必要な認証情報を手動で更新する必要がある場合があります。
デバイスが etcd スナップショットの作成後に OpenShift Container Platform ノードから削除されたか、名前が変更された。ローカルストレージ Operator で、/dev/disk/by-id または /dev ディレクトリーから管理する各 PV のシンボリックリンクが作成されます。この状況では、ローカル PV が存在しないデバイスを参照してしまう可能性があります。
この問題を修正するには、管理者は以下を行う必要があります。
1. デバイスが無効な PV を手動で削除します。
2. 各ノードからシンボリックリンクを削除します。
3. LocalVolume または LocalVolumeSet オブジェクトを削除します (ストレージ → 永続ストレージの設定 → ローカルボリュームを使用した永続ストレージ → ローカルストレージ Operator のリソースの削除 を参照)。

4.3.3. コントロールプレーン証明書の期限切れの状態からのリカバリー
リンクのコピー

クラスターはコントロールプレーン証明書の期限切れの状態から自動的に回復できます。

ただし、kubelet 証明書を回復するために保留状態の node-bootstrapper 証明書署名要求 (CSR) を手動で承認する必要があります。ユーザーによってプロビジョニングされるインストールの場合は、保留中の kubelet 提供の CSR を承認しないといけない場合があります。

保留中の CSR を承認するには、以下の手順に従います。

手順

現在の CSR の一覧を取得します。

oc get csr

$ oc get csr

Copy to Clipboard

Toggle word wrap

出力例

NAME        AGE    SIGNERNAME                                    REQUESTOR                                                                   CONDITION
csr-2s94x   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending 
csr-4bd6t   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending
csr-4hl85   13m    kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending 
csr-zhhhp   3m8s   kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending
...

NAME        AGE    SIGNERNAME                                    REQUESTOR                                                                   CONDITION
csr-2s94x   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending


csr-4bd6t   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending
csr-4hl85   13m    kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending


csr-zhhhp   3m8s   kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending
...

Copy to Clipboard

Toggle word wrap

1: 保留中の kubelet サービス CSR (ユーザーがプロビジョニングしたインストール用)。
2: 保留中の node-bootstrapper CSR。

CSR の詳細をレビューし、これが有効であることを確認します。
```
oc describe csr <csr_name>
```
```
$ oc describe csr <csr_name> 
```
1
Copy to Clipboard Toggle word wrap
1
<csr_name> は、現行の CSR のリストからの CSR の名前です。
それぞれの有効な node-bootstrapper CSR を承認します。
```
oc adm certificate approve <csr_name>
```
```
$ oc adm certificate approve <csr_name>
```
Copy to Clipboard Toggle word wrap
ユーザーによってプロビジョニングされるインストールの場合は、それぞれの有効な kubelet 提供の CSR を承認します。
```
oc adm certificate approve <csr_name>
```
```
$ oc adm certificate approve <csr_name>
```
Copy to Clipboard Toggle word wrap

4.3.4. 復元手順のテスト
リンクのコピー

自動化とワークロードが新しいクラスターの状態を適切に処理できるように、復元手順をテストすることが重要です。etcd クォーラムの複雑な性質と、etcd Operator による自動修復が原因で、クラスターを復元可能な状態に正しく戻すことが困難な場合がよくあります。

警告

クラスターへの SSH アクセス権が必要です。SSH アクセスがないと、クラスターが完全に失われる可能性があります。

前提条件

コントロールプレーンホストへの SSH アクセス権がある。
OpenShift CLI (oc) がインストールされている。

手順

SSH を使用してリカバリーノード以外の各ノードに接続し、次のコマンドを実行して etcd と kubelet サービスを無効にします。
1. 次のコマンドを実行して etcd を無効にします。
  $ sudo /usr/local/bin/disable-etcd.sh
  Copy to Clipboard Toggle word wrap
2. 次のコマンドを実行して、etcd の変数データを削除します。
  $ sudo rm -rf /var/lib/etcd
  Copy to Clipboard Toggle word wrap
3. 次のコマンドを実行して、kubelet サービスを無効にします。
  $ sudo systemctl disable kubelet.service
  Copy to Clipboard Toggle word wrap
すべての SSH セッションを終了します。
次のコマンドを実行して、リカバリーノード以外のノードが NOT READY 状態であることを確認します。
```
oc get nodes
```
```
$ oc get nodes
```
Copy to Clipboard Toggle word wrap
「以前のクラスター状態への復元」の手順に従い、クラスターを復元します。
クラスターを復元し、API が応答したら、SSH を使用してリカバリーノード以外の各ノードに接続し、kubelet サービスを有効にします。
```
sudo systemctl enable kubelet.service
```
```
$ sudo systemctl enable kubelet.service
```
Copy to Clipboard Toggle word wrap
すべての SSH セッションを終了します。
次のコマンドを実行して、ノードが READY 状態に戻ることを確認します。
```
oc get nodes
```
```
$ oc get nodes
```
Copy to Clipboard Toggle word wrap
次のコマンドを実行して、etcd が利用可能であることを確認します。
```
oc get pods -n openshift-etcd
```
```
$ oc get pods -n openshift-etcd
```
Copy to Clipboard Toggle word wrap

第5章 etcd 暗号化の有効化
リンクのコピー

5.1. etcd 暗号化について
リンクのコピー

デフォルトで、etcd データは OpenShift Container Platform で暗号化されません。クラスターの etcd 暗号化を有効にして、データセキュリティーのレイヤーを追加で提供することができます。たとえば、etcd バックアップが正しくない公開先に公開される場合に機密データが失われないように保護することができます。

etcd の暗号化を有効にすると、以下の OpenShift API サーバーおよび Kubernetes API サーバーリソースが暗号化されます。

シークレット
config map
ルート
OAuth アクセストークン
OAuth 認証トークン

etcd 暗号を有効にすると、暗号化キーが作成されます。etcd バックアップから復元するには、これらのキーが必要です。

注記

etcd 暗号化は、キーではなく、値のみを暗号化します。リソースの種類、namespace、およびオブジェクト名は暗号化されません。

バックアップ中に etcd 暗号化が有効になっている場合は、static_kuberesources_<datetimestamp>.tar.gz ファイルに etcd スナップショットの暗号化キーが含まれています。セキュリティー上の理由から、このファイルは etcd スナップショットとは別に保存してください。ただし、このファイルは、それぞれの etcd スナップショットから etcd の以前の状態を復元するために必要です。

5.2. サポートされている暗号化の種類
リンクのコピー

以下の暗号化タイプは、OpenShift Container Platform で etcd データを暗号化するためにサポートされています。

AES-CBC: 暗号化を実行するために、PKCS#7 パディングと 32 バイトの鍵を含む AES-CBC を使用します。暗号化キーは毎週ローテーションされます。
AES-GCM: AES-GCM とランダムナンスおよび 32 バイトキーを使用して暗号化を実行します。暗号化キーは毎週ローテーションされます。

5.3. etcd 暗号化の有効化
リンクのコピー

etcd 暗号化を有効にして、クラスターで機密性の高いリソースを暗号化できます。

警告

初期暗号化プロセスが完了するまで、etcd リソースをバックアップしないでください。暗号化プロセスが完了しない場合、バックアップは一部のみ暗号化される可能性があります。

etcd 暗号化を有効にすると、いくつかの変更が発生する可能性があります。

etcd 暗号化は、いくつかのリソースのメモリー消費に影響を与える可能性があります。
リーダーがバックアップを提供する必要があるため、バックアップのパフォーマンスに一時的な影響が生じる場合があります。
ディスク I/O は、バックアップ状態を受け取るノードに影響を与える可能性があります。

etcd データベースは、AES-GCM または AES-CBC 暗号化で暗号化できます。

注記

etcd データベースをある暗号化タイプから別の暗号化タイプに移行するには、API サーバーの spec.encryption.type フィールドを変更します。etcd データの新しい暗号化タイプへの移行は自動的に行われます。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。

手順

APIServer オブジェクトを変更します。
```
oc edit apiserver
```
```
$ oc edit apiserver
```
Copy to Clipboard Toggle word wrap
spec.encryption.type フィールドを aesgcm または aescbc に設定します。
```
spec:
  encryption:
    type: aesgcm 
```
```
spec:
  encryption:
    type: aesgcm 
```
1
Copy to Clipboard Toggle word wrap
1
AES-CBC 暗号化の場合は aescbc に、AES-GCM 暗号化の場合は aesgcm に設定します。
変更を適用するためにファイルを保存します。
暗号化プロセスが開始されます。etcd データベースのサイズによっては、このプロセスが完了するまでに 20 分以上かかる場合があります。
etcd 暗号化が正常に行われたことを確認します。
1. OpenShift API サーバーの Encrypted ステータスを確認し、そのリソースが正常に暗号化されたことを確認します。
  $ oc get openshiftapiserver -o=jsonpath='{range .items[0].status.conditions[?(@.type=="Encrypted")]}{.reason}{"\n"}{.message}{"\n"}'
  Copy to Clipboard Toggle word wrap
  この出力には、暗号化が正常に実行されると EncryptionCompleted が表示されます。
  EncryptionCompleted All resources encrypted: routes.route.openshift.io
  Copy to Clipboard Toggle word wrap
  出力に EncryptionInProgress が表示される場合、これは暗号化が進行中であることを意味します。数分待機した後に再試行します。
2. Kubernetes API サーバーの Encrypted ステータス状態を確認し、そのリソースが正常に暗号化されたことを確認します。
  $ oc get kubeapiserver -o=jsonpath='{range .items[0].status.conditions[?(@.type=="Encrypted")]}{.reason}{"\n"}{.message}{"\n"}'
  Copy to Clipboard Toggle word wrap
  この出力には、暗号化が正常に実行されると EncryptionCompleted が表示されます。
  EncryptionCompleted All resources encrypted: secrets, configmaps
  Copy to Clipboard Toggle word wrap
  出力に EncryptionInProgress が表示される場合、これは暗号化が進行中であることを意味します。数分待機した後に再試行します。
3. OpenShift OAuth API サーバーの Encrypted ステータスを確認し、そのリソースが正常に暗号化されたことを確認します。
  $ oc get authentication.operator.openshift.io -o=jsonpath='{range .items[0].status.conditions[?(@.type=="Encrypted")]}{.reason}{"\n"}{.message}{"\n"}'
  Copy to Clipboard Toggle word wrap
  この出力には、暗号化が正常に実行されると EncryptionCompleted が表示されます。
  EncryptionCompleted All resources encrypted: oauthaccesstokens.oauth.openshift.io, oauthauthorizetokens.oauth.openshift.io
  Copy to Clipboard Toggle word wrap
  出力に EncryptionInProgress が表示される場合、これは暗号化が進行中であることを意味します。数分待機した後に再試行します。

5.4. etcd 暗号化の無効化
リンクのコピー

クラスターで etcd データの暗号化を無効にできます。

前提条件

cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。

手順

APIServer オブジェクトを変更します。
```
oc edit apiserver
```
```
$ oc edit apiserver
```
Copy to Clipboard Toggle word wrap
encryption フィールドタイプを identity に設定します。
```
spec:
  encryption:
    type: identity 
```
```
spec:
  encryption:
    type: identity 
```
1
Copy to Clipboard Toggle word wrap
1
identity タイプはデフォルト値であり、暗号化は実行されないことを意味します。
変更を適用するためにファイルを保存します。
復号化プロセスが開始されます。クラスターのサイズによっては、このプロセスが完了するまで 20 分以上かかる場合があります。
etcd の復号化が正常に行われたことを確認します。
1. OpenShift API サーバーの Encrypted ステータス条件を確認し、そのリソースが正常に暗号化されたことを確認します。
  $ oc get openshiftapiserver -o=jsonpath='{range .items[0].status.conditions[?(@.type=="Encrypted")]}{.reason}{"\n"}{.message}{"\n"}'
  Copy to Clipboard Toggle word wrap
  この出力には、復号化が正常に実行されると DecryptionCompleted が表示されます。
  DecryptionCompleted Encryption mode set to identity and everything is decrypted
  Copy to Clipboard Toggle word wrap
  出力に DecryptionInProgress が表示される場合、これは復号化が進行中であることを意味します。数分待機した後に再試行します。
2. Kubernetes API サーバーの Encrypted ステータス状態を確認し、そのリソースが正常に復号化されたことを確認します。
  $ oc get kubeapiserver -o=jsonpath='{range .items[0].status.conditions[?(@.type=="Encrypted")]}{.reason}{"\n"}{.message}{"\n"}'
  Copy to Clipboard Toggle word wrap
  この出力には、復号化が正常に実行されると DecryptionCompleted が表示されます。
  DecryptionCompleted Encryption mode set to identity and everything is decrypted
  Copy to Clipboard Toggle word wrap
  出力に DecryptionInProgress が表示される場合、これは復号化が進行中であることを意味します。数分待機した後に再試行します。
3. OpenShift API サーバーの Encrypted ステータス条件を確認し、そのリソースが正常に復号化されたことを確認します。
  $ oc get authentication.operator.openshift.io -o=jsonpath='{range .items[0].status.conditions[?(@.type=="Encrypted")]}{.reason}{"\n"}{.message}{"\n"}'
  Copy to Clipboard Toggle word wrap
  この出力には、復号化が正常に実行されると DecryptionCompleted が表示されます。
  DecryptionCompleted Encryption mode set to identity and everything is decrypted
  Copy to Clipboard Toggle word wrap
  出力に DecryptionInProgress が表示される場合、これは復号化が進行中であることを意味します。数分待機した後に再試行します。

第6章複数のデータセンターをまたぐクラスターのガイダンス
リンクのコピー

Red Hat は、OpenShift Container Platform クラスターを 1 つのデータセンター内にデプロイするデプロイメントモデルを強く推奨していますが、クラスターを複数のデータセンターにまたがってデプロイするデプロイメントモデルをプロバイダーが使用できるシナリオがあることも認識しています。このドキュメントでは、多数のデータセンターをまたぐクラスターデプロイメントの使用を検討する際の考慮事項について概要を説明し、そのようなデプロイメントのサポート可能性に影響する重要なメトリクスについて説明します。そのようなデプロイメントの設計においては、製品が最適に機能し、適切な製品サポートサブスクリプションによる最高品質のサポートを確保するために、このガイドラインに準拠する必要があります。

警告

多くのデータセンターをまたぐクラスターデプロイメントでは、クラスターが複数の場所をまたいで単一障害ドメインとして拡張されるため、障害復旧計画の代わりとはみなされません。

多くのデータセンターをまたぐクラスターデプロイメントを持つクラスターは、Red Hat OpenShift Container Platform の標準サポートガイダンスの制約を受けます。詳細は、Red Hat OpenShift Container Platform ライフサイクルおよび Red Hat 製品サポートの対象範囲を参照してください。

多数のサイトをまたぐ OpenShift Container Platform クラスターをデプロイすることは推奨されません。多数のデータセンターまたはリージョンをまたぐ必要がある場合は、リージョンまたはサイトごとに 1 つのクラスターをデプロイし、Red Hat Advanced Cluster Management for Kubernetes (ACM) などのツールを使用してこれらのクラスターとデプロイメントを管理します。

一部の OpenShift Container Platform プラットフォームには、多くのデータセンターデプロイメントに対する特別なサポートがあります。詳細は、プラットフォーム固有の製品ドキュメントとリリースノートを確認してください。その他のプラットフォームは、ノード間のネットワーク接続の品質に応じて、データセンターをまたぐことができます。詳細は、etcd とパフォーマンスに影響を与える調整可能なパラメーター/条件についてを参照してください。

多数のデータセンターをまたぐクラスターデプロイメントを実装する場合は、Red Hat OpenShift Container Platform の高可用性および推奨されるプラクティスに詳しく記載されているプラクティスを実装するように努める必要があります。マルチサイトデプロイメントの代替として、サイトごとに 1 つの OpenShift Container Platform クラスターをデプロイすることもできます。これは、ACM によって管理されます。

6.1. 複数をまたぐクラスターのデプロイメントに関する注意事項
リンクのコピー

このドキュメントで提供されるガイダンスは、複数のデータセンターをまたぐクラスターデプロイメントの一般的な側面に重点を置いています。覚えておくべき注意事項:

複数のデータセンターをまたぐデプロイメントの設計に特別なサポート要件はありません。しかし、標準的なシングルサイトクラスターと比較すると、これらのクラスターには追加の考慮事項やサポート (問題の特定、修復、解決に要する時間) が必要となる固有の複雑さが伴います。
Kube API のレイテンシーが高い、またはトランザクションレートが低いクラスターでは、アプリケーションが適切に動作しないか、まったく動作しない可能性があります。
ストレージプロバイダーなどのレイヤード製品では、レイテンシー要件が低くなります。このような場合、レイテンシーの制限は、レイヤード製品でサポートされているアーキテクチャーによって決まります。
障害シナリオはストレッチコントロールプレーンによって増幅され、その影響の受け方はデプロイメントによって異なります。このため、実稼働環境で複数のデータセンターをまたぐデプロイメントを使用する前に、組織は次のような中断時のクラスターの動作をテストして文書化する必要があります。
- ネットワークパーティションが発生し、1 つ、2 つ、またはすべてのコントロールプレーンノードが分離された場合
- コントロールプレーンノード間のトランスポートネットワーク上で MTU の不一致がある場合
- Day 2 イベントとして、1 つ以上のコントロールプレーンノードに対するレイテンシーが持続的に急増した場合
- ネットワークの輻輳、誤設定、QoS の欠如、中間ネットワークデバイスによるパケットエラーなどによりジッターに大きな変化が生じた場合
多数のサイト、ネットワークインフラストラクチャー、ストレージインフラストラクチャー、またはその他のコンポーネントをまたいでデプロイされたクラスターには、その性質上、障害点の数が多くなります。ネットワークの中断や分割は特にこのようなクラスターにとって大きな脅威となり、ノードが相互の接続を失うリスクが生じます。このようなマルチサイトクラスターは、このような障害の可能性を考慮して設計する必要があります。マルチサイトクラスターをデプロイする組織は、障害シナリオを徹底的にテストし、クラスターがすべての障害点から保護されているか検討する必要があります。耐障害性のある高可用性クラスター設計の重要な側面を検討する場合は、Red Hat サポートにご相談ください。
場合によっては、GEO 認識は、レイテンシーを最小限に抑えるために解決する必要がある要件または問題であるため、Global Service Load Balancing (GSLB) メソッドの適切な実装を利用できなければなりません。

6.2. Infrastructure as a Service (IaaS) とクラウドプロバイダーの考慮事項
リンクのコピー

このガイダンスは、OpenShift Container Platform コントロールプレーンノードが user-provisioned infrastructure インストーラー (platform=none) または ”User Managed Network” オプションを使用するエージェントベースのインストーラー (platform=metal) によってサポートされているすべてのインフラストラクチャープロバイダーに適用されます。installer-provisioned infrastructure インストーラーはこれらのガイドラインの対象外です。しかし、可能な場合は、これらの (または同様の) ガイドラインに従い、installer-provisioned infrastructure デプロイメントはクラウドまたは IaaS プロバイダー上のゾーンまたはアベイラビリティーゾーンをまたぐことがあります。これは、インフラストラクチャープロバイダー固有の統合 (たとえば、ストレージサービスやロードバランサーなどのクラウドプロバイダーサービスとの統合) は利用できないことを意味します。プロバイダー固有のサービスは、引き続き外部サービスとして使用される可能性があります。

コントロールプレーンノードに異なるインフラストラクチャープラットフォームプロバイダーを使用することは推奨されません (たとえば、コントロールプレーンノードとして IaaS、クラウド、ベアメタルのノードを混在させること)。このような組み合わせが必要な場合は、次のガイドラインを考慮してください。

インフラストラクチャー全体の最小有効 MTU は、デプロイメントに使用される最大 MTU である必要があります。それより低い MTU も使用できます。詳細は、OpenShift Container Platform 4.x での MTU 設定についての理解と検証 を参照してください。
ディスクとネットワークのレイテンシーとジッターを合わせた etcd ピアの往復時間は 100 ミリ秒未満に維持する必要があります。これはネットワークの往復時間とは異なります。
レイヤード製品のレイテンシー要件は、これより低い可能性があります。そのような場合、レイテンシーの制限は、レイヤード製品でサポートされるアーキテクチャーの要件によって決まります。たとえば、Red Hat OpenShift Data Foundation を使用し、複数のデータセンターをまたぐ OpenShift Container Platform クラスターのデプロイメントでは、レイテンシー要件が 10 ミリ秒 RTT 未満でなければなりません。そのような場合は、該当する製品のガイダンスに従ってください。
OpenShift Data Foundation をストレージプロバイダーとして使用する、複数のデータセンターをまたぐクラスターデプロイメントに関するガイダンスについては、OpenShift ワークロード用の OpenShift Data Foundation Disaster Recovery の設定 を参照してください。

6.3. サイトの推奨事項
リンクのコピー

各サイトに 1 つのコントロールプレーンメンバーが割り当てられると仮定すると、理論的には 3 つのサイトを定義することになります。Red Hat はこれを推奨しています。これにより、1 つのデータセンターが非アクティブ状態になっても、クラスターはクォーラムと運用の一貫性を維持できます。

この想定が満たされない場合は、クラスターの望ましいフォールトトレランス状態と実際のフォールトトレランス状態に注意を払う必要があります。これは、多くの場合、デプロイメントの運用能力 (稼働時間と安定性) の概要を示し、決定するからです。

6.4. etcd、ネットワーク、ストレージの要件
リンクのコピー

複数のデータセンターをまたぐクラスターの場合は、次の要件を考慮してください。

6.4.1. etcd の要件
リンクのコピー

etcd クラスターのデプロイメントを計画する際には、検討すべき要素と考慮事項が多数あります。複数のデータセンターをまたぐ OpenShift Container Platform クラスターを計画する場合、etcd に負荷がかかったり、etcd の運用限界に達したりする可能性のある状況に備える必要があります。

運用能力を維持し、サービスに影響するイベントやクラスターの不安定性を軽減する方法の詳細は、etcd とパフォーマンスに影響する調整可能なパラメーター/条件について を参照してください。

6.4.2. ネットワーク要件
リンクのコピー

選択したネットワークトポロジーでは、ノード間の直接 IP 接続が可能である必要があります。インフラストラクチャー全体の最小有効 MTU は、デプロイメントに使用される最大 MTU である必要があります。それより低い MTU も使用できます。

詳細は、OpenShift Container Platform 4.x での MTU 設定についての理解と検証 を参照してください。レイテンシーの必要性は、最終的にはネットワークを使用するサービスによって決まります。要件の詳細は、etcd およびストレージに関連するセクションを参照してください。

基本的なネットワーク要件に加えて、アプリケーションにアクセスする方法についても考慮する必要があります。外部トラフィックが OpenShift Container Platform コントロールプレーンサービスおよび Ingress コントローラーに接続するためには、OpenShift Container Platform の外部でトップレベルの Global Service Load Balancing (GSLB) メソッドが必要になります。

6.4.3. ストレージ要件
リンクのコピー

複数のデータセンターをまたぐクラスターデプロイメントを検討する場合、選択したストレージ統合が、すべてのサイトからのアクセス性、フォールトトレランス、高可用性などにかかわるマルチサイト要件も満たすように、特に配慮する必要があります。

レジストリーにはオブジェクトストレージソリューションを使用する必要があります。このストレージソリューションは、アプリケーションボリュームまたはワークロードに使用される PV ストレージ統合に加えて使用する必要があります。このオブジェクトストレージソリューションでも同様に、すべてのサイトからのアクセス性、フォールトトレランス、高可用性などについて考慮する必要があります。

ディスク I/O は etcd データベースの健全性において重要な要素であるため、高速かつ低レイテンシーのメディアにデプロイする必要があります。満たすべき正確な要件の詳細は、etcd ピアの往復時間 と etcd データベースサイズ に関する etcd ガイダンスを参照してください。

6.5. ワークロードの配置に関する考慮事項
リンクのコピー

マルチサイトクラスターでは、管理者と開発者は、重要なワークロードがクラスターのトポロジー内の適切なハードウェアまたはホストに基づきスケジュールまたは配置されるよう、特に配慮する必要があります。これにより、クラスターのデプロイメントのトポロジーに基づき、アプリケーションとサービスの高可用性とフォールトトレランスが確保されます。

これを考慮しないと、OpenShift Container Platform がクラスター内のホスト上でワークロードをスケジュールし、データセンターが停止した場合に OpenShift Container Platform インフラストラクチャーサービスおよびその他のアプリケーションサービスに対して単一障害点 (SPoF) が作成される可能性があります。

Legal Notice
リンクのコピー

OpenShift documentation is licensed under the Apache License 2.0 (https://www.apache.org/licenses/LICENSE-2.0).

Modified versions must remove all Red Hat trademarks.

Portions adapted from https://github.com/kubernetes-incubator/service-catalog/ with modifications by Red Hat.

Red Hat, Red Hat Enterprise Linux, the Red Hat logo, the Shadowman logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.

Linux® is the registered trademark of Linus Torvalds in the United States and other countries.

Java® is a registered trademark of Oracle and/or its affiliates.

XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.

MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.

Node.js® is an official trademark of the OpenJS Foundation.

The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation’s permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.

All other trademarks are the property of their respective owners.

etcd

etcd による冗長性の確保

第1章 etcd の概要リンクのコピーリンクがクリップボードにコピーされました!

1.1. etcd の仕組みリンクのコピーリンクがクリップボードにコピーされました!

1.2. etcd のパフォーマンスについてリンクのコピーリンクがクリップボードにコピーされました!

第2章 推奨される etcd プラクティスリンクのコピーリンクがクリップボードにコピーされました!

2.1. etcd のストレージプラクティスリンクのコピーリンクがクリップボードにコピーされました!

2.2. etcd のクラスターレイテンシー要件リンクのコピーリンクがクリップボードにコピーされました!

2.3. etcd のハードウェアの検証リンクのコピーリンクがクリップボードにコピーされました!

第3章 信頼性の高い etcd パフォーマンスとスケーラビリティーの確保リンクのコピーリンクがクリップボードにコピーされました!

3.1. etcd のリーダー選出とログレプリケーションリンクのコピーリンクがクリップボードにコピーされました!

3.2. etcd のノードスケーリングリンクのコピーリンクがクリップボードにコピーされました!

3.3. ディスクレイテンシーが etcd に与える影響リンクのコピーリンクがクリップボードにコピーされました!

3.4. etcd のコンセンサスレイテンシーの監視リンクのコピーリンクがクリップボードにコピーされました!

3.5. etcd を別のディスクに移動するリンクのコピーリンクがクリップボードにコピーされました!

3.6. etcd データのデフラグリンクのコピーリンクがクリップボードにコピーされました!

3.6.1. 自動デフラグリンクのコピーリンクがクリップボードにコピーされました!

3.6.2. 手動デフラグリンクのコピーリンクがクリップボードにコピーされました!

3.7. etcd のチューニングパラメーターの設定リンクのコピーリンクがクリップボードにコピーされました!

3.7.1. ハードウェア速度許容値の変更リンクのコピーリンクがクリップボードにコピーされました!

3.8. OpenShift Container Platform の etcd 用に調整可能なタイマー項目リンクのコピーリンクがクリップボードにコピーされました!

3.9. etcd データベースのサイズを決定して影響を把握するリンクのコピーリンクがクリップボードにコピーされました!

3.10. etcd のデータベースサイズを増やすリンクのコピーリンクがクリップボードにコピーされました!

3.10.1. etcd データベースのサイズを変更するリンクのコピーリンクがクリップボードにコピーされました!

3.10.2. トラブルシューティングリンクのコピーリンクがクリップボードにコピーされました!

3.10.2.1. 値が小さすぎるリンクのコピーリンクがクリップボードにコピーされました!

3.10.2.2. 値が大きすぎるリンクのコピーリンクがクリップボードにコピーされました!

3.10.2.3. 価値が下がっているリンクのコピーリンクがクリップボードにコピーされました!

3.11. コントロールプレーンノード間のネットワークジッターの測定リンクのコピーリンクがクリップボードにコピーされました!

3.12. etcd ピアの往復時間がパフォーマンスに与える影響リンクのコピーリンクがクリップボードにコピーされました!

3.13. 環境に対する Kubernetes API トランザクションレートの決定リンクのコピーリンクがクリップボードにコピーされました!

第4章 etcd データのバックアップと復元リンクのコピーリンクがクリップボードにコピーされました!

4.1. etcd データのバックアップと復元リンクのコピーリンクがクリップボードにコピーされました!

4.1.1. etcd データのバックアップリンクのコピーリンクがクリップボードにコピーされました!

4.1.2. 自動 etcd バックアップの作成リンクのコピーリンクがクリップボードにコピーされました!

4.1.2.1. 単一の自動化された etcd バックアップの作成リンクのコピーリンクがクリップボードにコピーされました!

4.1.2.2. 定期的な自動 etcd バックアップの作成リンクのコピーリンクがクリップボードにコピーされました!

4.2. 正常でない etcd メンバーの置き換えリンクのコピーリンクがクリップボードにコピーされました!

4.2.1. 正常でない etcd メンバーの特定リンクのコピーリンクがクリップボードにコピーされました!

4.2.2. 正常でない etcd メンバーの状態の判別リンクのコピーリンクがクリップボードにコピーされました!

4.2.3. 正常でない etcd メンバーの置き換えリンクのコピーリンクがクリップボードにコピーされました!

4.2.3.1. マシンが実行されていないか、ノードの準備ができていない場合の正常でない etcd メンバーの置き換えリンクのコピーリンクがクリップボードにコピーされました!

4.2.3.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換えリンクのコピーリンクがクリップボードにコピーされました!

4.2.3.3. マシンが実行されていないか、ノードが準備状態にない場合の正常でないベアメタル etcd メンバーの置き換えリンクのコピーリンクがクリップボードにコピーされました!

4.3. 障害復旧リンクのコピーリンクがクリップボードにコピーされました!

4.3.1. クォーラムの復元リンクのコピーリンクがクリップボードにコピーされました!

4.3.1.1. 高可用性クラスターの etcd クォーラムの復元リンクのコピーリンクがクリップボードにコピーされました!

4.3.2. 以前のクラスター状態への復元リンクのコピーリンクがクリップボードにコピーされました!

4.3.2.1. 以前のクラスター状態への復元についてリンクのコピーリンクがクリップボードにコピーされました!

4.3.2.2. シングルノードで以前のクラスター状態に復元するリンクのコピーリンクがクリップボードにコピーされました!

4.3.2.3. 複数のノードの以前のクラスター状態への復元リンクのコピーリンクがクリップボードにコピーされました!

4.3.2.4. etcd バックアップからのクラスターの手動復元リンクのコピーリンクがクリップボードにコピーされました!

4.3.2.5. 永続ストレージの状態復元に関する問題および回避策リンクのコピーリンクがクリップボードにコピーされました!

4.3.3. コントロールプレーン証明書の期限切れの状態からのリカバリーリンクのコピーリンクがクリップボードにコピーされました!

4.3.4. 復元手順のテストリンクのコピーリンクがクリップボードにコピーされました!

第5章 etcd 暗号化の有効化リンクのコピーリンクがクリップボードにコピーされました!

5.1. etcd 暗号化についてリンクのコピーリンクがクリップボードにコピーされました!

5.2. サポートされている暗号化の種類リンクのコピーリンクがクリップボードにコピーされました!

5.3. etcd 暗号化の有効化リンクのコピーリンクがクリップボードにコピーされました!

5.4. etcd 暗号化の無効化リンクのコピーリンクがクリップボードにコピーされました!

第6章 複数のデータセンターをまたぐクラスターのガイダンスリンクのコピーリンクがクリップボードにコピーされました!

6.1. 複数をまたぐクラスターのデプロイメントに関する注意事項リンクのコピーリンクがクリップボードにコピーされました!

6.2. Infrastructure as a Service (IaaS) とクラウドプロバイダーの考慮事項リンクのコピーリンクがクリップボードにコピーされました!

6.3. サイトの推奨事項リンクのコピーリンクがクリップボードにコピーされました!

6.4. etcd、ネットワーク、ストレージの要件リンクのコピーリンクがクリップボードにコピーされました!

6.4.1. etcd の要件リンクのコピーリンクがクリップボードにコピーされました!

6.4.2. ネットワーク要件リンクのコピーリンクがクリップボードにコピーされました!

6.4.3. ストレージ要件リンクのコピーリンクがクリップボードにコピーされました!

6.5. ワークロードの配置に関する考慮事項リンクのコピーリンクがクリップボードにコピーされました!

Legal Notice リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第1章 etcd の概要
リンクのコピー

1.1. etcd の仕組み
リンクのコピー

1.2. etcd のパフォーマンスについて
リンクのコピー

第2章推奨される etcd プラクティス
リンクのコピー

2.1. etcd のストレージプラクティス
リンクのコピー

2.2. etcd のクラスターレイテンシー要件
リンクのコピー

2.3. etcd のハードウェアの検証
リンクのコピー

第3章信頼性の高い etcd パフォーマンスとスケーラビリティーの確保
リンクのコピー

3.1. etcd のリーダー選出とログレプリケーション
リンクのコピー

3.2. etcd のノードスケーリング
リンクのコピー

3.3. ディスクレイテンシーが etcd に与える影響
リンクのコピー

3.4. etcd のコンセンサスレイテンシーの監視
リンクのコピー

3.5. etcd を別のディスクに移動する
リンクのコピー

3.6. etcd データのデフラグ
リンクのコピー

3.6.1. 自動デフラグ
リンクのコピー

3.6.2. 手動デフラグ
リンクのコピー

3.7. etcd のチューニングパラメーターの設定
リンクのコピー

3.7.1. ハードウェア速度許容値の変更
リンクのコピー

3.8. OpenShift Container Platform の etcd 用に調整可能なタイマー項目
リンクのコピー

3.9. etcd データベースのサイズを決定して影響を把握する
リンクのコピー

3.10. etcd のデータベースサイズを増やす
リンクのコピー

3.10.1. etcd データベースのサイズを変更する
リンクのコピー

3.10.2. トラブルシューティング
リンクのコピー

3.10.2.1. 値が小さすぎる
リンクのコピー

3.10.2.2. 値が大きすぎる
リンクのコピー

3.10.2.3. 価値が下がっている
リンクのコピー

3.11. コントロールプレーンノード間のネットワークジッターの測定
リンクのコピー

3.12. etcd ピアの往復時間がパフォーマンスに与える影響
リンクのコピー

3.13. 環境に対する Kubernetes API トランザクションレートの決定
リンクのコピー

第4章 etcd データのバックアップと復元
リンクのコピー

4.1. etcd データのバックアップと復元
リンクのコピー

4.1.1. etcd データのバックアップ
リンクのコピー

4.1.2. 自動 etcd バックアップの作成
リンクのコピー

4.1.2.1. 単一の自動化された etcd バックアップの作成
リンクのコピー

4.1.2.2. 定期的な自動 etcd バックアップの作成
リンクのコピー

4.2. 正常でない etcd メンバーの置き換え
リンクのコピー

4.2.1. 正常でない etcd メンバーの特定
リンクのコピー

4.2.2. 正常でない etcd メンバーの状態の判別
リンクのコピー

4.2.3. 正常でない etcd メンバーの置き換え
リンクのコピー

4.2.3.1. マシンが実行されていないか、ノードの準備ができていない場合の正常でない etcd メンバーの置き換え
リンクのコピー

4.2.3.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え
リンクのコピー

4.2.3.3. マシンが実行されていないか、ノードが準備状態にない場合の正常でないベアメタル etcd メンバーの置き換え
リンクのコピー

4.3. 障害復旧
リンクのコピー

4.3.1. クォーラムの復元
リンクのコピー

4.3.1.1. 高可用性クラスターの etcd クォーラムの復元
リンクのコピー

4.3.2. 以前のクラスター状態への復元
リンクのコピー

4.3.2.1. 以前のクラスター状態への復元について
リンクのコピー

4.3.2.2. シングルノードで以前のクラスター状態に復元する
リンクのコピー

4.3.2.3. 複数のノードの以前のクラスター状態への復元
リンクのコピー

4.3.2.4. etcd バックアップからのクラスターの手動復元
リンクのコピー

4.3.2.5. 永続ストレージの状態復元に関する問題および回避策
リンクのコピー

4.3.3. コントロールプレーン証明書の期限切れの状態からのリカバリー
リンクのコピー

4.3.4. 復元手順のテスト
リンクのコピー

第5章 etcd 暗号化の有効化
リンクのコピー

5.1. etcd 暗号化について
リンクのコピー

5.2. サポートされている暗号化の種類
リンクのコピー

5.3. etcd 暗号化の有効化
リンクのコピー

5.4. etcd 暗号化の無効化
リンクのコピー

第6章複数のデータセンターをまたぐクラスターのガイダンス
リンクのコピー

6.1. 複数をまたぐクラスターのデプロイメントに関する注意事項
リンクのコピー

6.2. Infrastructure as a Service (IaaS) とクラウドプロバイダーの考慮事項
リンクのコピー

6.3. サイトの推奨事項
リンクのコピー

6.4. etcd、ネットワーク、ストレージの要件
リンクのコピー

6.4.1. etcd の要件
リンクのコピー

6.4.2. ネットワーク要件
リンクのコピー

6.4.3. ストレージ要件
リンクのコピー

6.5. ワークロードの配置に関する考慮事項
リンクのコピー

Legal Notice
リンクのコピー