5.6. 由于节点崩溃而 ERS 实例失败
验证 ERS
实例在同一节点上重启。
测试先决条件
两个集群节点都有运行
ASCS
和ERS
的资源组:pcs status | egrep -e "S4H_ascs20|S4H_ers29"
[root@node1]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node2
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 已清除资源和资源组的所有故障,并且已重置故障计数。
测试步骤
-
使运行
ERS
的节点崩溃。
-
使运行
监控
在测试过程中,在其它节点上的单独终端中运行以下命令:
watch -n 1 pcs status
[root@nod1]# watch -n 1 pcs status
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
预期行为
-
运行
ERS
的节点会崩溃,并根据配置关闭或重启。 -
同时
ASCS
继续运行其他节点。ERS
在崩溃的节点上重新启动,之后恢复在线。
-
运行
测试
在运行
ERS
的节点中,以 root 用户身份运行以下命令:echo c > /proc/sysrq-trigger
[root@node2]# echo c > /proc/sysrq-trigger
Copy to Clipboard Copied! Toggle word wrap Toggle overflow ERS
在崩溃的节点上重启,在恢复在线后,在测试过程中不会干扰ASCS
实例:pcs status | egrep -e "S4H_ascs20|S4H_ers29"
[root@node1]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node2
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
恢复过程
如果出现以下情况,清理失败的操作:
pcs resource cleanup
[root@node2]# pcs resource cleanup
Copy to Clipboard Copied! Toggle word wrap Toggle overflow