搜索

1.4. 静默 Ceph 集群的健康警报

download PDF

在某些情况下,用户可能希望临时静默一些警告,因为它们已经了解警告且无法立即操作。您可以静默健康检查,以便它们不会影响 Ceph 集群的总体报告状态。

使用健康检查代码指定警报。例如,当 OSD 停机进行维护时,OSD_DOWN 警告是正常的。您可以选择在维护结束前静默警告,因为在维护期间,这些警告会使集群处于 HEALTH_WARN 状态而不是 HEALTH_OK 状态。

如果一个警报的状态变差,则大多数健康状况也会消失。例如,如果有一个 OSD down,并且警报被静默,如果一个或多个额外的 OSD 停机,则静默会消失。对于任何涉及指示触发警告或错误的对象数量或数量的健康警报,这都为 true。

先决条件

  • 一个正在运行的 Red Hat Ceph Storage 集群。
  • 对节点的根级别的访问权限。
  • 健康警告信息。

流程

  1. 登录到 Cephadm shell:

    示例

    [root@host01 ~]# cephadm shell

  2. 运行 ceph health detail 命令检查 Red Hat Ceph Storage 集群的健康状态:

    示例

    [ceph: root@host01 /]# ceph health detail
    
    HEALTH_WARN 1 osds down; 1 OSDs or CRUSH {nodes, device-classes} have {NOUP,NODOWN,NOIN,NOOUT} flags set
    [WRN] OSD_DOWN: 1 osds down
        osd.1 (root=default,host=host01) is down
    [WRN] OSD_FLAGS: 1 OSDs or CRUSH {nodes, device-classes} have {NOUP,NODOWN,NOIN,NOOUT} flags set
        osd.1 has flags noup

    您可以看到存储集群处于 HEALTH_WARN 状态,因为其中一个 OSD 为 down。

  3. 静默警报:

    语法

    ceph health mute HEALTH_MESSAGE

    示例

    [ceph: root@host01 /]# ceph health mute OSD_DOWN

  4. 可选:健康检查可以有一个与它关联的生存时间(TTL),以便在指定时间段内自动过期。在命令中使用可选的 TTL 作为指定持续时间的参数:

    语法

    ceph health mute HEALTH_MESSAGE DURATION

    DURATION 可以在 ssecmminhhour 中指定。

    示例

    [ceph: root@host01 /]# ceph health mute OSD_DOWN 10m

    在本例中,警报 OSD_DOWN 为 muted 达到 10 分钟。

  5. 验证 Red Hat Ceph Storage 集群状态是否已更改为 HEALTH_OK

    示例

    [ceph: root@host01 /]# ceph -s
      cluster:
        id:     81a4597a-b711-11eb-8cb8-001a4a000740
        health: HEALTH_OK
                (muted: OSD_DOWN(9m) OSD_FLAGS(9m))
    
      services:
        mon: 3 daemons, quorum host01,host02,host03 (age 33h)
        mgr: host01.pzhfuh(active, since 33h), standbys: host02.wsnngf, host03.xwzphg
        osd: 11 osds: 10 up (since 4m), 11 in (since 5d)
    
      data:
        pools:   1 pools, 1 pgs
        objects: 13 objects, 0 B
        usage:   85 MiB used, 165 GiB / 165 GiB avail
        pgs:     1 active+clean

    在本例中,您可以看到警报 OSD_DOWNOSD_FLAG 处于静默状态,静默会持续 9 分钟。

  6. 可选:您可以通过使其 粘滞 在清除警报后保留静默。

    语法

    ceph health mute HEALTH_MESSAGE DURATION --sticky

    示例

    [ceph: root@host01 /]# ceph health mute OSD_DOWN 1h --sticky

  7. 您可以运行以下命令来删除静默:

    语法

    ceph health unmute HEALTH_MESSAGE

    示例

    [ceph: root@host01 /]# ceph health unmute OSD_DOWN

其它资源

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.