5.5. 因为节点崩溃而故障转移 ASCS 实例
验证 ASCS
实例在节点崩溃时正确移动。
测试先决条件
两个集群节点都有运行
ASCS
和ERS
的资源组:[root@node1]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node2 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node1
- 已清除资源和资源组的所有故障,并且已重置故障计数。
测试步骤
-
崩溃运行
ASCS
的节点。
-
崩溃运行
监控
在测试过程中,在其它节点上的单独终端中运行以下命令:
[root@node1]# watch -n 1 pcs status
预期行为
-
运行
ASCS
的节点会崩溃,并根据配置关闭或重启。 -
同时
ASCS
移动到其他节点。 -
ERS
在之前崩溃的节点上启动,之后恢复在线。
-
运行
测试
在运行
ASCS
的节点中,以 root 用户身份运行以下命令:[root@node2]# echo c > /proc/sysrq-trigger
ASCS
移到其他节点:[root@node1]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node1
ERS
在恢复在线后停止并移到之前崩溃的节点:[root@node1]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ers29 (ocf:heartbeat:SAPInstance): Stopped [root@node1]# pcs status | egrep -e "S4H_ascs20|S4H_ers29" * S4H_ascs20 (ocf:heartbeat:SAPInstance): Started node1 * S4H_ers29 (ocf:heartbeat:SAPInstance): Started node2
恢复过程
清理失败的操作(若有):
[root@node1]# pcs resource cleanup