5.2. 监控环境
在本节中,我们将在测试期间专注于监控环境。本节仅涵盖所需的 monitor 以查看更改。建议您从专用终端运行 monitor。为了能够在测试期间检测到更改,建议在启动测试前启动监控。
在 Useful commands 部分中会显示更多示例。
5.2.1. 发现主节点 复制链接链接已复制到粘贴板!
您需要发现主节点来监控故障转移或运行某些命令,它们仅在主节点上执行时提供有关复制状态的信息。
要发现主节点,您可以以 < sid>adm 用户身份运行以下命令:
az1n1:rh2adm> watch -n 5 'hdbnsutil -sr_stateConfiguration | egrep -e "primary masters|^mode"'
如果节点正在运行一个主数据库实例,则输出类似如下:
mode: primary
如果节点运行了输出输出的二级数据库实例,如下所示:
mode: sync
primary masters: az1n1
5.2.2. 检查复制状态 复制链接链接已复制到粘贴板!
复制状态显示主和次要数据库节点与复制的当前状态之间的关系。
要发现复制状态,您可以以 < sid>adm 用户身份运行:
az1n1:rh2adm> hdbnsutil -sr_stateConfiguration
如果要永久监控系统复制状态的更改,请在运行主数据库的节点上运行以下命令:
az1n1:rh2adm> watch -n 5 'python
/usr/sap/${SAPSYSTEMNAME}/HDB${TINSTANCE}/exe/python_support/systemReplicationStatus.py ; echo Status $?'
这个示例重复捕获复制状态,并决定当前的返回代码。
只要返回码(status)为 15,复制状态就正常。其他返回代码有:
- 10: NoHSR
- 11: error
- 12: unknown
- 13: 初始化
- 14: sync
- 15: active
如果您注册一个新的二级,您可以在其中一个主节点上的独立窗口中运行它,您可以看到复制的进度。如果要监控故障转移,您可以在旧的主和新的主数据库服务器上并行运行它。如需更多信息,请参阅 检查 SAP HANA 系统复制状态。
5.2.3. 检查 /var/log/messages 条目 复制链接链接已复制到粘贴板!
Pacemaker 将大量信息写入 /var/log/messages 和 /var/log/pacemaker/pacemaker.log 文件中。在故障转移期间,大量消息将写入到此消息文件中。要只根据 SAP HANA 资源代理跟踪重要消息,过滤 pacemaker SAP 资源的详细活动会很有用。在单个集群节点上检查消息文件就足够了。
例如,您可以使用此别名:
# alias tmsl='tail -1000f /var/log/messages | egrep -s "Setting master-rsc_SAPHana_${SAPSYSTEMNAME}_HDB${TINSTANCE}|sr_register|WAITING4LPA|PROMOTED|DEMOTED|UNDEFINED|master_walk|SWAIT|WaitforStopped|FAILED|LPT"'
在单独的窗口中运行此别名以监控测试的进度。另外,检查示例 Monitoring failover 和 sync 状态。
5.2.4. 集群状态 复制链接链接已复制到粘贴板!
可以通过几种方法检查集群状态。
检查集群是否正在运行:
-
pcs cluster status
-
检查集群和所有资源:
-
pcs status
-
检查集群、所有资源和所有节点属性:
-
pcs status --full
-
仅检查资源:
-
pcs resource
-
pcs status --full 命令为您提供所有必要的信息。要监控更改,您可以通过监视来运行这个命令。
# pcs status --full
如果要查看更改,您可以在一个单独的窗口中运行,命令 监视 :
# watch pcs status --full
有关输出示例和更多选项,请参阅 检查集群状态。
5.2.5. 发现保留 复制链接链接已复制到粘贴板!
为确保您的环境已准备好运行下一个测试,需要修复或删除之前测试中。
stonith用于隔离集群中的节点:-
detect:
[root@az1n1]" pcs stonith history -
Fix:
[root@az1n1]" pcs stonith cleanup
-
detect:
多个主数据库:
Detect:
az1n1:rh2adm> hdbnsutil -sr_stateConfiguration | grep -i primary需要识别具有相同主节点的所有节点。
-
Fix: az1n1:rh2adm> re-register the wrong primary with option-
force_full_replica
通过移动导致的位置限制:
detect:
[root@az1n1]" pcs constraint location检查 warning 部分。
-
Fix:
[root@az1n1]# pcs resource clear <clone-resource- it was moved>
二级复制关系:
-
detect: 在其中一个节点上运行主数据库实例
az1n1:rh2adm> python ${DIR_EXECUTABLES}/python_support/systemReplicationStatus.py - Fix: unregister and re-register the secondary 数据库。
-
detect: 在其中一个节点上运行主数据库实例
检查 siteReplicationMode (在所有 SAP HANA 节点上相同输出)
-
az1n1:rh2adm> hdbnsutil -sr_state --sapcontrol=1 |grep site targetedMode
-
pcs 属性:
-
detect:
[root@az1n1]# pcs property config -
fix:
[root@az1n1]# pcs property set <key=value> -
clear
maintenance_mode -
[root@az1n1]# pcs property set maintenance-mode=false
-
detect:
log_mode:detect:
az1n1:rh2adm> python systemReplicationStatus.py响应需要
log_modenormal 的复制状态。可以检测到log_mode,如 使用hdbsql检查Inifile内容 中所述。-
修复 :将
log_mode更改为 normal,然后重新启动主数据库。
CIB 条目:
检测:集群信息库中的失败条目。
请参阅 检查集群一致性 来查找和删除 CIB 条目。
cleanup/clear:
detect:
[root@az1n1]# pcs status --full有时它会显示错误或警告。您可以清理/明确的资源,如果一切正常,则不会进行任何操作。在运行下一个测试前,您可以清理您的环境。检查所有节点是否在线,且未离线或处于待机模式。
清理示例:
[root@az1n1]# pcs resource clear <name-of-the-clone-resource>[root@az1n1]# pcs resource cleanup <name-of-the-clone-resource>
PCS 资源状态
- update: [root@az1b1]" pcs resource refresh
如果要检查现有环境中是否有问题,这也很有用。如需更多信息,请参阅使用 命令。