6.2. 触发 indexserver 崩溃恢复


通过模拟 hdbindexserver 进程崩溃来测试 ChkSrv HA/DR 供应商的功能。您可以在主或辅助实例上执行此操作。确切的恢复操作取决于整个配置。

先决条件

  • 您已配置了 ChkSrv HA/DR 供应商。如果您尚未配置此可选 hook,请跳过此测试。
  • 您的 HANA 实例具有健康的 HANA 系统复制。
  • 集群状态没有失败。

流程

  1. 以 < sid>adm 用户身份,使用单独的终端来监控 HANA 实例进程:

    rh1adm $ watch "sapcontrol -nr ${TINSTANCE} -function GetProcessList | column -s ',' -t"
    Copy to Clipboard Toggle word wrap
  2. 在另一个终端中,终止 hdbindexserver 进程:

    rh1adm $ kill <PID>
    Copy to Clipboard Toggle word wrap

验证

  1. 检查同一实例上的专用 HANA 跟踪日志,识别事件和相关操作,用户 < sid>adm

    rh1adm $ cdtrace; less nameserver_chksrv.trc
    ...
    ChkSrv srServiceStateChanged method called with SAPSYSTEMNAME=RH1
    srv:indexserver-30203-stopping-yes db:RH1-3-yes daem:yes
    LOST: indexserver event looks like a lost indexserver (status=stopping)
    LOST: stop instance. action_on_lost=stop
    ChkSrv version 1.001.1. Method srServiceStateChanged method called.
    ...
    Copy to Clipboard Toggle word wrap
  2. root 用户身份检查资源故障信息的集群状态:

    [root]# pcs status --full
    ...
    
    Failed Resource Actions:
      * rsc_SAPHanaCon_RH1_HDB02_start_0 on node1 'not running' (7): call=61, status='complete', ...
    
    ...
    Copy to Clipboard Toggle word wrap
  3. root 用户身份,检查集群侧的相关操作:

    [root]# grep rsc_SAPHanaCon_RH1_HDB02 /var/log/messages
    ...
    SAPHanaController(rsc_SAPHanaCon_RH1_HDB02)[149199]: INFO: ##-2-## DEC: PRIMDEFECT (in DEMOTED status)
    SAPHanaController(rsc_SAPHanaCon_RH1_HDB02)[149206]: INFO: ##-2-## RA ==== end action monitor_clone with rc=7 (1.2.7) (3s; times=0m0.051s 0m0.079s 0m1.325s 0m1.137s)====
    pacemaker-controld[1694]: notice: Result of monitor operation for rsc_SAPHanaCon_RH1_HDB02 on node1: not running
    pacemaker-controld[1694]: notice: Transition 142 action 18 (rsc_SAPHanaCon_RH1_HDB02_monitor_61000 on node1): expected 'ok' but got 'not running'
    pacemaker-attrd[1692]: notice: Setting last-failure-rsc_SAPHanaCon_RH1_HDB02#monitor_61000[node1] in instance_attributes: (unset) -> 1746703980
    pacemaker-attrd[1692]: notice: Setting fail-count-rsc_SAPHanaCon_RH1_HDB02#monitor_61000[node1] in instance_attributes: (unset) -> 1
    pacemaker-attrd[1692]: notice: Setting master-rsc_SAPHanaCon_RH1_HDB02[node2] in instance_attributes: 100 -> 145
    pacemaker-schedulerd[1693]: warning: Unexpected result (not running) was recorded for monitor of rsc_SAPHanaCon_RH1_HDB02:0 on node1 at ...
    pacemaker-schedulerd[1693]: notice: Actions: Recover    rsc_SAPHanaCon_RH1_HDB02:0     (             Unpromoted node1 )
    pacemaker-controld[1694]: notice: Initiating monitor operation rsc_SAPHanaCon_RH1_HDB02_monitor_59000 on node2
    pacemaker-controld[1694]: notice: Initiating stop operation rsc_SAPHanaCon_RH1_HDB02_stop_0 locally on node1
    pacemaker-controld[1694]: notice: Requesting local execution of stop operation for rsc_SAPHanaCon_RH1_HDB02 on node1
    ...
    Copy to Clipboard Toggle word wrap

    下一个 SAPHanaController 资源监控器会报告意外停止的 HANA 实例作为故障,并根据配置启动恢复步骤。如果启用了 PREFER_SITE_TAKEOVER,且测试是在主实例上执行的,它会触发 HANA 接管次要实例。

后续步骤

  • 清除集群中可能来自之前测试的任何故障通知。如需更多信息,请参阅 清理失败历史记录
  • 根据需要,根据配置手动重新注册停止的前一个 HANA 实例,并使用 HANA 工具启动它。如需更多信息,请参阅 接管后注册前的主要内容
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat