6.2. 触发 indexserver 崩溃恢复
通过模拟 hdbindexserver
进程崩溃来测试 ChkSrv
HA/DR 供应商的功能。您可以在主或辅助实例上执行此操作。确切的恢复操作取决于整个配置。
先决条件
-
您已配置了
ChkSrv
HA/DR 供应商。如果您尚未配置此可选 hook,请跳过此测试。 - 您的 HANA 实例具有健康的 HANA 系统复制。
- 集群状态没有失败。
流程
以 <
sid>adm
用户身份,使用单独的终端来监控 HANA 实例进程:rh1adm $ watch "sapcontrol -nr ${TINSTANCE} -function GetProcessList | column -s ',' -t"
rh1adm $ watch "sapcontrol -nr ${TINSTANCE} -function GetProcessList | column -s ',' -t"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在另一个终端中,终止
hdbindexserver
进程:rh1adm $ kill <PID>
rh1adm $ kill <PID>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
验证
检查同一实例上的专用 HANA 跟踪日志,识别事件和相关操作,用户 <
sid>adm
:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 以
root
用户身份检查资源故障信息的集群状态:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 以
root
用户身份,检查集群侧的相关操作:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 下一个
SAPHanaController
资源监控器会报告意外停止的 HANA 实例作为故障,并根据配置启动恢复步骤。如果启用了PREFER_SITE_TAKEOVER
,且测试是在主实例上执行的,它会触发 HANA 接管次要实例。
后续步骤
- 清除集群中可能来自之前测试的任何故障通知。如需更多信息,请参阅 清理失败历史记录。
- 根据需要,根据配置手动重新注册停止的前一个 HANA 实例,并使用 HANA 工具启动它。如需更多信息,请参阅 接管后注册前的主要内容。