5.2. 监控环境


在本节中,我们将在测试期间专注于监控环境。本节仅涵盖所需的 monitor 以查看更改。建议您从专用终端运行 monitor。为了能够在测试期间检测到更改,建议在启动测试前启动监控。

Useful commands 部分中会显示更多示例。

5.2.1. 发现主节点

您需要发现主节点来监控故障转移或运行某些命令,它们仅在主节点上执行时提供有关复制状态的信息。

要发现主节点,您可以以 < sid>adm 用户身份运行以下命令:

az1n1:rh2adm> watch -n 5 'hdbnsutil -sr_stateConfiguration | egrep -e "primary masters|^mode"'

如果节点正在运行一个主数据库实例,则输出类似如下:

mode: primary

如果节点运行了输出输出的二级数据库实例,如下所示:

mode: sync
primary masters: az1n1

5.2.2. 检查复制状态

复制状态显示主和次要数据库节点与复制的当前状态之间的关系。

要发现复制状态,您可以以 < sid>adm 用户身份运行:

az1n1:rh2adm> hdbnsutil -sr_stateConfiguration

如果要永久监控系统复制状态的更改,请在运行主数据库的节点上运行以下命令:

az1n1:rh2adm> watch -n 5 'python
/usr/sap/${SAPSYSTEMNAME}/HDB${TINSTANCE}/exe/python_support/systemReplicationStatus.py ; echo Status $?'

这个示例重复捕获复制状态,并决定当前的返回代码。
只要返回码(status)为 15,复制状态就正常。其他返回代码有:

  • 10: NoHSR
  • 11: error
  • 12: unknown
  • 13: 初始化
  • 14: sync
  • 15: active

如果您注册一个新的二级,您可以在其中一个主节点上的独立窗口中运行它,您可以看到复制的进度。如果要监控故障转移,您可以在旧的主和新的主数据库服务器上并行运行它。如需更多信息,请参阅 检查 SAP HANA 系统复制状态

5.2.3. 检查 /var/log/messages 条目

Pacemaker 将大量信息写入 /var/log/messages/var/log/pacemaker/pacemaker.log 文件中。在故障转移期间,大量消息将写入到此消息文件中。要只根据 SAP HANA 资源代理跟踪重要消息,过滤 pacemaker SAP 资源的详细活动会很有用。在单个集群节点上检查消息文件就足够了。

例如,您可以使用此别名:

# alias tmsl='tail -1000f /var/log/messages | egrep -s "Setting master-rsc_SAPHana_${SAPSYSTEMNAME}_HDB${TINSTANCE}|sr_register|WAITING4LPA|PROMOTED|DEMOTED|UNDEFINED|master_walk|SWAIT|WaitforStopped|FAILED|LPT"'

在单独的窗口中运行此别名以监控测试的进度。另外,检查示例 Monitoring failover 和 sync 状态

5.2.4. 集群状态

可以通过几种方法检查集群状态。

  • 检查集群是否正在运行:

    • pcs cluster status
  • 检查集群和所有资源:

    • pcs status
  • 检查集群、所有资源和所有节点属性:

    • pcs status --full
  • 仅检查资源:

    • pcs resource

pcs status --full 命令为您提供所有必要的信息。要监控更改,您可以通过监视来运行这个命令。

# pcs status --full

如果要查看更改,您可以在一个单独的窗口中运行,命令 监视

# watch pcs status --full

有关输出示例和更多选项,请参阅 检查集群状态

5.2.5. 发现保留

为确保您的环境已准备好运行下一个测试,需要修复或删除之前测试中。

  • stonith 用于隔离集群中的节点:

    • detect: [root@az1n1]" pcs stonith history
    • Fix: [root@az1n1]" pcs stonith cleanup
  • 多个主数据库:

    • Detect: az1n1:rh2adm> hdbnsutil -sr_stateConfiguration | grep -i primary

      需要识别具有相同主节点的所有节点。

    • Fix: az1n1:rh2adm> re-register the wrong primary with option- force_full_replica
  • 通过移动导致的位置限制:

    • detect: [root@az1n1]" pcs constraint location

      检查 warning 部分。

    • Fix: [root@az1n1]# pcs resource clear <clone-resource- it was moved>
  • 二级复制关系:

    • detect: 在其中一个节点上运行主数据库实例 az1n1:rh2adm> python ${DIR_EXECUTABLES}/python_support/systemReplicationStatus.py
    • Fix: unregister and re-register the secondary 数据库。
  • 检查 siteReplicationMode (在所有 SAP HANA 节点上相同输出)

    • az1n1:rh2adm> hdbnsutil -sr_state --sapcontrol=1 |grep site targetedMode
  • pcs 属性:

    • detect: [root@az1n1]# pcs property config
    • fix: [root@az1n1]# pcs property set <key=value>
    • clear maintenance_mode
    • [root@az1n1]# pcs property set maintenance-mode=false
  • log_mode

    • detect: az1n1:rh2adm> python systemReplicationStatus.py

      响应需要 log_mode normal 的复制状态。可以检测到 log_mode,如 使用 hdbsql 检查 Inifile 内容 中所述。

    • 修复 :将 log_mode 更改为 normal,然后重新启动主数据库。
  • CIB 条目:

    • 检测:集群信息库中的失败条目。

      请参阅 检查集群一致性 来查找和删除 CIB 条目。

  • cleanup/clear:

    • detect: [root@az1n1]# pcs status --full

      有时它会显示错误或警告。您可以清理/明确的资源,如果一切正常,则不会进行任何操作。在运行下一个测试前,您可以清理您的环境。检查所有节点是否在线,且未离线或处于待机模式。

    • 清理示例:

      [root@az1n1]# pcs resource clear <name-of-the-clone-resource>

      [root@az1n1]# pcs resource cleanup <name-of-the-clone-resource>

  • PCS 资源状态

    • update: [root@az1b1]" pcs resource refresh

如果要检查现有环境中是否有问题,这也很有用。如需更多信息,请参阅使用 命令

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部