5.3. ASCS インスタンスの障害のテスト
ASCS
インスタンスのエンキューサーバーまたは ASCS
インスタンス全体に障害が発生したときに、pacemaker クラスターが必要なアクションを実行することを確認します。
テストの前提条件
両方のクラスターノードが稼働しており、
ASCS
とERS
のリソースグループが実行されています。Copy to Clipboard Copied! Toggle word wrap Toggle overflow pcs status | egrep -e "S4H_ascs20|S4H_ers29"
[root@node2]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node2
- リソースおよびリソースグループのすべての障害がクリアされ、failcount がリセットされている。
テストの手順
-
ASCS
が実行されているノードのエンキューサーバーのPID
を特定します。 -
識別されたプロセスに
SIGKILL
シグナルを送信します。
-
モニタリング
テスト中に別のターミナルで次のコマンドを実行します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow watch -n 1 pcs status
[root@node2]# watch -n 1 pcs status
予想される動作
- エンキューサーバープロセスが強制終了されます。
-
pacemaker クラスターは、設定に従って必要なアクションを実行します。この場合、
ASCS
を他のノードに移動します。
テスト
ASCS
が実行されているノード上の<sid>adm user
に切り替えます。Copy to Clipboard Copied! Toggle word wrap Toggle overflow su - s4hadm
[root@node1]# su - s4hadm
en.sap(NetWeaver) enq.sap(S/4HANA) の PID を特定します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow node1:s4hadm 51> pgrep -af "(en|enq).sap" 31464 enq.sapS4H_ASCS20 pf=/usr/sap/S4H/SYS/profile/S4H_ASCS20_s4ascs
node1:s4hadm 51> pgrep -af "(en|enq).sap" 31464 enq.sapS4H_ASCS20 pf=/usr/sap/S4H/SYS/profile/S4H_ASCS20_s4ascs
特定されたプロセスを強制終了します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow node1:s4hadm 52> kill -9 31464
node1:s4hadm 52> kill -9 31464
クラスターの
Failed Resource Actions
に注目してください。Copy to Clipboard Copied! Toggle word wrap Toggle overflow pcs status | grep "Failed Resource Actions" -A1
[root@node2]# pcs status | grep "Failed Resource Actions" -A1 Failed Resource Actions: * S4H_ascs20 2m-interval monitor on node1 returned 'not running' at Wed Dec 6 15:37:24 2023
ASCS
とERS
は、他のノードに移動します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow pcs status | egrep -e "S4H_ascs20|S4H_ers29"
[root@node2]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node2 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ascs20 2m-interval monitor on node1 returned 'not running' at Wed Dec 6 15:37:24 2023
復元の手順
失敗したアクションをクリアします。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow pcs resource cleanup S4H_ascs20
[root@node2]# pcs resource cleanup S4H_ascs20 … Waiting for 1 reply from the controller ... got reply (done)