第13章 コントローラーノードの置き換え
特定の状況では、高可用性クラスター内のコントローラーノードに障害が発生することがあります。その場合は、そのコントローラーノードをクラスターから削除して新しいコントローラーノードに置き換える必要があります。
以下のシナリオの手順を実施して、コントローラーノードを置き換えます。コントローラーノードを置き換えるプロセスでは、openstack overcloud deploy
コマンドを実行し、コントローラーノードを置き換えるリクエストでオーバークラウドを更新します。
以下の手順は、高可用性環境にのみ適用されます。コントローラーノード 1 台の場合には、この手順は使用しないでください。
13.1. コントローラー置き換えの準備 リンクのコピーリンクがクリップボードにコピーされました!
オーバークラウドコントローラーノードの置き換えを試みる前に、Red Hat OpenStack Platform 環境の現在の状態をチェックしておくことが重要です。このチェックしておくと、コントローラーの置き換えプロセス中に複雑な事態が発生するのを防ぐことができます。以下の事前チェックリストを使用して、コントローラーノードの置き換えを実行しても安全かどうかを確認してください。チェックのためのコマンドはすべてアンダークラウドで実行します。
手順
アンダークラウドで、
overcloud
スタックの現在の状態をチェックします。source stackrc
$ source stackrc (undercloud) $ openstack stack list --nested
Copy to Clipboard Copied! Toggle word wrap Toggle overflow overcloud
スタックと後続の子スタックは、CREATE_COMPLETE
またはUPDATE_COMPLETE
のステータスである必要があります。データベースクライアントツールをインストールします。
(undercloud) $ sudo dnf -y install mariadb
(undercloud) $ sudo dnf -y install mariadb
Copy to Clipboard Copied! Toggle word wrap Toggle overflow root ユーザーのデータベースへのアクセス権限を設定します。
(undercloud) $ sudo cp /var/lib/config-data/puppet-generated/mysql/root/.my.cnf /root/.
(undercloud) $ sudo cp /var/lib/config-data/puppet-generated/mysql/root/.my.cnf /root/.
Copy to Clipboard Copied! Toggle word wrap Toggle overflow アンダークラウドデータベースのバックアップを実行します。
(undercloud) $ mkdir /home/stack/backup (undercloud) $ sudo mysqldump --all-databases --quick --single-transaction | gzip > /home/stack/backup/dump_db_undercloud.sql.gz
(undercloud) $ mkdir /home/stack/backup (undercloud) $ sudo mysqldump --all-databases --quick --single-transaction | gzip > /home/stack/backup/dump_db_undercloud.sql.gz
Copy to Clipboard Copied! Toggle word wrap Toggle overflow アンダークラウドに、新規ノードプロビジョニング時のイメージのキャッシュと変換に対応できる 10 GB の空きストレージ領域があることを確認します。
(undercloud) $ df -h
(undercloud) $ df -h
Copy to Clipboard Copied! Toggle word wrap Toggle overflow コントローラーノードで実行中の Pacemaker の状態をチェックします。たとえば、実行中のコントローラーノードの IP アドレスが 192.168.0.47 の場合には、以下のコマンドで Pacemaker のステータス情報を取得します。
(undercloud) $ ssh heat-admin@192.168.0.47 'sudo pcs status'
(undercloud) $ ssh heat-admin@192.168.0.47 'sudo pcs status'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力には、既存のノードで実行中のサービスと、障害が発生しているノードで停止中のサービスがすべて表示されるはずです。
オーバークラウド MariaDB クラスターの各ノードで以下のパラメーターをチェックします。
-
wsrep_local_state_comment: Synced
wsrep_cluster_size: 2
実行中のコントローラーノードで以下のコマンドを使用して、パラメーターをチェックします。以下の例では、コントローラーノードの IP アドレスは、それぞれ 192.168.0.47 と 192.168.0.46 です。
(undercloud) $ for i in 192.168.24.6 192.168.24.7 ; do echo "*** $i ***" ; ssh heat-admin@$i "sudo podman exec \$(sudo podman ps --filter name=galera-bundle -q) mysql -e \"SHOW STATUS LIKE 'wsrep_local_state_comment'; SHOW STATUS LIKE 'wsrep_cluster_size';\""; done
(undercloud) $ for i in 192.168.24.6 192.168.24.7 ; do echo "*** $i ***" ; ssh heat-admin@$i "sudo podman exec \$(sudo podman ps --filter name=galera-bundle -q) mysql -e \"SHOW STATUS LIKE 'wsrep_local_state_comment'; SHOW STATUS LIKE 'wsrep_cluster_size';\""; done
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
-
RabbitMQ のステータスをチェックします。たとえば、実行中のコントローラーノードの IP アドレスが 192.168.0.47 の場合には、以下のコマンドを実行してステータスを取得します。
(undercloud) $ ssh heat-admin@192.168.0.47 "sudo podman exec \$(sudo podman ps -f name=rabbitmq-bundle -q) rabbitmqctl cluster_status"
(undercloud) $ ssh heat-admin@192.168.0.47 "sudo podman exec \$(sudo podman ps -f name=rabbitmq-bundle -q) rabbitmqctl cluster_status"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow running_nodes
キーには、障害が発生しているノードは表示されず、稼働中のノード 2 台のみが表示されるはずです。フェンシングが有効化されている場合には無効にします。たとえば、実行中のコントローラーノードの IP アドレスが 192.168.0.47 の場合には、以下のコマンドを実行してフェンシングのステータスを確認します。
(undercloud) $ ssh heat-admin@192.168.0.47 "sudo pcs property show stonith-enabled"
(undercloud) $ ssh heat-admin@192.168.0.47 "sudo pcs property show stonith-enabled"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow フェンシングを無効にするには、以下のコマンドを実行します。
(undercloud) $ ssh heat-admin@192.168.0.47 "sudo pcs property set stonith-enabled=false"
(undercloud) $ ssh heat-admin@192.168.0.47 "sudo pcs property set stonith-enabled=false"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow director ノードで Compute サービスがアクティブであることを確認します。
(undercloud) $ openstack hypervisor list
(undercloud) $ openstack hypervisor list
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力では、メンテナンスモードに入っていないすべてのノードが
up
のステータスで表示されるはずです。アンダークラウドコンテナーがすべて実行中であることを確認します。
(undercloud) $ sudo podman ps
(undercloud) $ sudo podman ps
Copy to Clipboard Copied! Toggle word wrap Toggle overflow