1.4. 静默 Ceph 集群的健康警报
在某些情况下,用户可能希望临时静默一些警告,因为它们已经了解警告且无法立即操作。您可以静默健康检查,以便它们不会影响 Ceph 集群的总体报告状态。
警报使用健康检查代码来指定。例如,当 OSD 停机进行维护时,OSD_DOWN
警告是正常的。您可以选择在维护结束前静默警告,因为在维护期间,这些警告会使集群处于 HEALTH_WARN
状态而不是 HEALTH_OK
状态。
如果一个警报的状态变差,则大多数健康状况也会消失。例如,如果有一个 OSD 停机,并且警报是静默的,如果一个或多个额外的 OSD 停机,则静默会消失。对于任何涉及计数的健康警报,这个情况代表触发警告或错误的数量或数量。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
- 对节点的根级别的访问权限。
- 健康警告消息。
流程
登录到 Cephadm shell:
示例
[root@host01 ~]# cephadm shell
运行
ceph health detail
命令,检查 Red Hat Ceph Storage 集群的健康状态:示例
[ceph: root@host01 /]# ceph health detail HEALTH_WARN 1 osds down; 1 OSDs or CRUSH {nodes, device-classes} have {NOUP,NODOWN,NOIN,NOOUT} flags set [WRN] OSD_DOWN: 1 osds down osd.1 (root=default,host=host01) is down [WRN] OSD_FLAGS: 1 OSDs or CRUSH {nodes, device-classes} have {NOUP,NODOWN,NOIN,NOOUT} flags set osd.1 has flags noup
您可以看到存储集群处于
HEALTH_WARN
状态,因为其中一个 OSD 为 down。静默警报:
语法
ceph health mute HEALTH_MESSAGE
示例
[ceph: root@host01 /]# ceph health mute OSD_DOWN
可选:健康检查静默可以有一个与它关联的生存时间(TTL),因此静默会在指定时间段内自动过期。在命令中使用可选的 TTL 作为指定持续时间的参数:
语法
ceph health mute HEALTH_MESSAGE DURATION
DURATION 可以在
s
、sec
、m
、min
、h
或hour
中指定。示例
[ceph: root@host01 /]# ceph health mute OSD_DOWN 10m
在本例中,
OSD_DOWN
警报的静默时间为 10 分钟。验证 Red Hat Ceph Storage 集群状态是否已更改为
HEALTH_OK
:示例
[ceph: root@host01 /]# ceph -s cluster: id: 81a4597a-b711-11eb-8cb8-001a4a000740 health: HEALTH_OK (muted: OSD_DOWN(9m) OSD_FLAGS(9m)) services: mon: 3 daemons, quorum host01,host02,host03 (age 33h) mgr: host01.pzhfuh(active, since 33h), standbys: host02.wsnngf, host03.xwzphg osd: 11 osds: 10 up (since 4m), 11 in (since 5d) data: pools: 1 pools, 1 pgs objects: 13 objects, 0 B usage: 85 MiB used, 165 GiB / 165 GiB avail pgs: 1 active+clean
在本例中,您可以看到警报 OSD_DOWN 和 OSD_FLAG 处于静默状态,静默会持续 9 分钟。
可选:您可以通过使其成为 粘性,在警报被清除后保留静默。
语法
ceph health mute HEALTH_MESSAGE DURATION --sticky
示例
[ceph: root@host01 /]# ceph health mute OSD_DOWN 1h --sticky
您可以运行以下命令来删除静默:
语法
ceph health unmute HEALTH_MESSAGE
示例
[ceph: root@host01 /]# ceph health unmute OSD_DOWN
其它资源
- 详情请参阅 Red Hat Ceph Storage Troubleshooting Guide 中的 Health messages of a Ceph cluster 部分。