5.2. 监控环境

5.2.1. 发现主节点
复制链接

您需要发现主节点来监控故障转移或运行某些命令，它们仅在主节点上执行时提供有关复制状态的信息。

要发现主节点，您可以以 < sid>adm 用户身份运行以下命令：

az1n1:rh2adm> watch -n 5 'hdbnsutil -sr_stateConfiguration | egrep -e "primary masters|^mode"'

如果节点正在运行一个主数据库实例，则输出类似如下：

mode: primary

如果节点运行了输出输出的二级数据库实例，如下所示：

mode: sync
primary masters: az1n1

5.2.2. 检查复制状态
复制链接

复制状态显示主和次要数据库节点与复制的当前状态之间的关系。

要发现复制状态，您可以以 < sid>adm 用户身份运行：

az1n1:rh2adm> hdbnsutil -sr_stateConfiguration

如果要永久监控系统复制状态的更改，请在运行主数据库的节点上运行以下命令：

az1n1:rh2adm> watch -n 5 'python
/usr/sap/${SAPSYSTEMNAME}/HDB${TINSTANCE}/exe/python_support/systemReplicationStatus.py ; echo Status $?'

这个示例重复捕获复制状态，并决定当前的返回代码。
只要返回码(status)为 15，复制状态就正常。其他返回代码有：

10: NoHSR
11: error
12: unknown
13: 初始化
14: sync
15: active

如果您注册一个新的二级，您可以在其中一个主节点上的独立窗口中运行它，您可以看到复制的进度。如果要监控故障转移，您可以在旧的主和新的主数据库服务器上并行运行它。如需更多信息，请参阅检查 SAP HANA 系统复制状态。

5.2.3. 检查 /var/log/messages 条目
复制链接

Pacemaker 将大量信息写入 /var/log/messages 和 /var/log/pacemaker/pacemaker.log 文件中。在故障转移期间，大量消息将写入到此消息文件中。要只根据 SAP HANA 资源代理跟踪重要消息，过滤 pacemaker SAP 资源的详细活动会很有用。在单个集群节点上检查消息文件就足够了。

例如，您可以使用此别名：

# alias tmsl='tail -1000f /var/log/messages | egrep -s "Setting master-rsc_SAPHana_${SAPSYSTEMNAME}_HDB${TINSTANCE}|sr_register|WAITING4LPA|PROMOTED|DEMOTED|UNDEFINED|master_walk|SWAIT|WaitforStopped|FAILED|LPT"'

在单独的窗口中运行此别名以监控测试的进度。另外，检查示例 Monitoring failover 和 sync 状态。

5.2.4. 集群状态
复制链接

可以通过几种方法检查集群状态。

检查集群是否正在运行：
- pcs cluster status
检查集群和所有资源：
- pcs status
检查集群、所有资源和所有节点属性：
- pcs status --full
仅检查资源：
- pcs resource

pcs status --full 命令为您提供所有必要的信息。要监控更改，您可以通过监视来运行这个命令。

# pcs status --full

如果要查看更改，您可以在一个单独的窗口中运行，命令 监视 ：

# watch pcs status --full

有关输出示例和更多选项，请参阅检查集群状态。

5.2.5. 发现保留
复制链接

为确保您的环境已准备好运行下一个测试，需要修复或删除之前测试中。

stonith 用于隔离集群中的节点：
- detect: [root@az1n1]" pcs stonith history
- Fix: [root@az1n1]" pcs stonith cleanup
多个主数据库：
- Detect: az1n1:rh2adm> hdbnsutil -sr_stateConfiguration | grep -i primary
  需要识别具有相同主节点的所有节点。
- Fix: az1n1:rh2adm> re-register the wrong primary with option- force_full_replica
通过移动导致的位置限制：
- detect: [root@az1n1]" pcs constraint location
  检查 warning 部分。
- Fix: [root@az1n1]# pcs resource clear <clone-resource- it was moved>
二级复制关系：
- detect: 在其中一个节点上运行主数据库实例 az1n1:rh2adm> python ${DIR_EXECUTABLES}/python_support/systemReplicationStatus.py
- Fix: unregister and re-register the secondary 数据库。
检查 siteReplicationMode （在所有 SAP HANA 节点上相同输出）
- az1n1:rh2adm> hdbnsutil -sr_state --sapcontrol=1 |grep site targetedMode
pcs 属性：
- detect: [root@az1n1]# pcs property config
- fix: [root@az1n1]# pcs property set <key=value>
- clear maintenance_mode
- [root@az1n1]# pcs property set maintenance-mode=false
log_mode ：
- detect: az1n1:rh2adm> python systemReplicationStatus.py
  响应需要 log_mode normal 的复制状态。可以检测到 log_mode，如使用 hdbsql 检查 Inifile 内容中所述。
- 修复：将 log_mode 更改为 normal，然后重新启动主数据库。
CIB 条目：
- 检测：集群信息库中的失败条目。
  请参阅检查集群一致性来查找和删除 CIB 条目。
cleanup/clear:
- detect: [root@az1n1]# pcs status --full
  有时它会显示错误或警告。您可以清理/明确的资源，如果一切正常，则不会进行任何操作。在运行下一个测试前，您可以清理您的环境。检查所有节点是否在线，且未离线或处于待机模式。
- 清理示例：
  [root@az1n1]# pcs resource clear <name-of-the-clone-resource>
  [root@az1n1]# pcs resource cleanup <name-of-the-clone-resource>
PCS 资源状态
- update: [root@az1b1]" pcs resource refresh

如果要检查现有环境中是否有问题，这也很有用。如需更多信息，请参阅使用命令。

5.2.1. 发现主节点
复制链接

5.2.2. 检查复制状态
复制链接

5.2.3. 检查 /var/log/messages 条目
复制链接

5.2.4. 集群状态
复制链接

5.2.5. 发现保留
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

5.2. 监控环境

5.2.1. 发现主节点复制链接链接已复制到粘贴板!

5.2.2. 检查复制状态复制链接链接已复制到粘贴板!

5.2.3. 检查 /var/log/messages 条目复制链接链接已复制到粘贴板!

5.2.4. 集群状态复制链接链接已复制到粘贴板!

5.2.5. 发现保留复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

5.2.1. 发现主节点
复制链接

5.2.2. 检查复制状态
复制链接

5.2.3. 检查 /var/log/messages 条目
复制链接

5.2.4. 集群状态
复制链接

5.2.5. 发现保留
复制链接