ホーム
製品
OpenShift Container Platform
4.5
バックアップおよび復元
2.4.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え

2.4.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え

この手順では、etcd Pod がクラッシュループしている場合の正常でない etcd メンバーを置き換える手順を説明します。

前提条件

正常でない etcd メンバーを特定している。
etcd Pod がクラッシュループしていることを確認している。
cluster-admin ロールを持つユーザーとしてクラスターにアクセスできる。
etcd のバックアップを取得している。
重要
問題が発生した場合にクラスターを復元できるように、この手順を実行する前に etcd バックアップを作成しておくことは重要です。

手順

クラッシュループしている etcd Pod を停止します。
1. クラッシュループしているノードをデバッグします。
  クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
  $ oc debug node/ip-10-0-131-183.ec2.internal
  1
  1
  これを正常でないノードの名前に置き換えます。
2. ルートディレクトリーをホストに切り替えます。
  sh-4.2# chroot /host
3. 既存の etcd Pod ファイルを kubelet マニフェストディレクトリーから移動します。
  sh-4.2# mkdir /var/lib/etcd-backup
  sh-4.2# mv /etc/kubernetes/manifests/etcd-pod.yaml /var/lib/etcd-backup/
4. etcd データディレクトリーを別の場所に移動します。
  sh-4.2# mv /var/lib/etcd/ /tmp
  これでノードシェルを終了できます。

正常でないメンバーを削除します。

影響を受けるノード上にない Pod を選択します。

クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。

$ oc get pods -n openshift-etcd | grep etcd

出力例

etcd-ip-10-0-131-183.ec2.internal                2/3     Error       7          6h9m
etcd-ip-10-0-164-97.ec2.internal                 3/3     Running     0          6h6m
etcd-ip-10-0-154-204.ec2.internal                3/3     Running     0          6h6m

実行中の etcd コンテナーに接続し、影響を受けるノードにない Pod の名前を渡します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```

メンバーの一覧を確認します。

sh-4.2# etcdctl member list -w table

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| 62bcf33650a7170a | started | ip-10-0-131-183.ec2.internal | https://10.0.131.183:2380 | https://10.0.131.183:2379 |
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

これらの値はこの手順で後ほど必要となるため、ID および正常でない etcd メンバーの名前を書き留めておきます。

ID を etcdctl member remove コマンドに指定して、正常でない etcd メンバーを削除します。
```
sh-4.2# etcdctl member remove 62bcf33650a7170a
```
出力例
```
Member 62bcf33650a7170a removed from cluster ead669ce1fbfb346
```

メンバーの一覧を再度表示し、メンバーが削除されたことを確認します。

sh-4.2# etcdctl member list -w table

出力例

+------------------+---------+------------------------------+---------------------------+---------------------------+
|        ID        | STATUS  |             NAME             |        PEER ADDRS         |       CLIENT ADDRS        |
+------------------+---------+------------------------------+---------------------------+---------------------------+
| b78e2856655bc2eb | started |  ip-10-0-164-97.ec2.internal |  https://10.0.164.97:2380 |  https://10.0.164.97:2379 |
| d022e10b498760d5 | started | ip-10-0-154-204.ec2.internal | https://10.0.154.204:2380 | https://10.0.154.204:2379 |
+------------------+---------+------------------------------+---------------------------+---------------------------+

これでノードシェルを終了できます。

削除された正常でない etcd メンバーの古いシークレットを削除します。
1. 削除された正常でない etcd メンバーのシークレットを一覧表示します。
  $ oc get secrets -n openshift-etcd | grep ip-10-0-131-183.ec2.internal
  1
  1
  この手順で先ほど書き留めた正常でない etcd メンバーの名前を渡します。
  以下の出力に示されるように、ピア、サービング、およびメトリクスシークレットがあります。
  出力例
  etcd-peer-ip-10-0-131-183.ec2.internal kubernetes.io/tls 2 47m etcd-serving-ip-10-0-131-183.ec2.internal kubernetes.io/tls 2 47m etcd-serving-metrics-ip-10-0-131-183.ec2.internal kubernetes.io/tls 2 47m
2. 削除された正常でない etcd メンバーのシークレットを削除します。
  1. ピアシークレットを削除します。
    
    $ oc delete secret -n openshift-etcd etcd-peer-ip-10-0-131-183.ec2.internal
  2. 提供シークレットを削除します。
    
    $ oc delete secret -n openshift-etcd etcd-serving-ip-10-0-131-183.ec2.internal
  3. メトリクスシークレットを削除します。
    
    $ oc delete secret -n openshift-etcd etcd-serving-metrics-ip-10-0-131-183.ec2.internal
etcd の再デプロイメントを強制的に実行します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc patch etcd cluster -p='{"spec": {"forceRedeploymentReason": "single-master-recovery-'"$( date --rfc-3339=ns )"'"}}' --type=merge 
```
1
1
forceRedeploymentReason 値は一意である必要があります。そのため、タイムスタンプが付加されます。
etcd クラスター Operator が再デプロイを実行する場合、すべてのマスターノードで etcd Pod が機能していることを確認します。

検証

新しいメンバーが利用可能で、正常な状態にあることを確認します。

再度実行中の etcd コンテナーに接続します。
クラスターにアクセスできるターミナルで、cluster-admin ユーザーとして以下のコマンドを実行します。
```
$ oc rsh -n openshift-etcd etcd-ip-10-0-154-204.ec2.internal
```

すべてのメンバーが正常であることを確認します。

sh-4.2# etcdctl endpoint health --cluster

出力例

https://10.0.131.183:2379 is healthy: successfully committed proposal: took = 16.671434ms
https://10.0.154.204:2379 is healthy: successfully committed proposal: took = 16.698331ms
https://10.0.164.97:2379 is healthy: successfully committed proposal: took = 16.621645ms

2.4.2. etcd Pod がクラッシュループしている場合の正常でない etcd メンバーの置き換え

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links