第 7 章 在 Ceph 仪表板上管理警报


作为存储管理员,您可以查看警报详情并在 Red Hat Ceph Storage 仪表板中为它们创建静默。这包括以下预定义警报:

  • CephadmDaemonFailed
  • CephadmPaused
  • CephadmUpgradeFailed
  • CephDaemonCrash
  • CephDeviceFailurePredicted
  • CephDeviceFailurePredictionTooHigh
  • CephDeviceFailureRelocationIncomplete
  • CephFilesystemDamaged
  • CephFilesystemDegraded
  • CephFilesystemFailureNoStandby
  • CephFilesystemInsufficientStandby
  • CephFilesystemMDSRanksLow
  • CephFilesystemOffline
  • CephFilesystemReadOnly
  • CephHealthError
  • CephHealthWarning
  • CephMgrModuleCrash
  • CephMgrPrometheusModuleInactive
  • CephMonClockSkew
  • CephMonDiskspaceCritical
  • CephMonDiskspaceLow
  • CephMonDown
  • CephMonDownQuorumAtRisk
  • CephNodeDiskspaceWarning
  • CephNodeInconsistentMTU
  • CephNodeNetworkPacketDrops
  • CephNodeNetworkPacketErrors
  • CephNodeRootFilesystemFull
  • CephObjectMissing
  • CephOSDBackfillFull
  • CephOSDDown
  • CephOSDDownHigh
  • CephOSDFlapping
  • CephOSDFull
  • CephOSDHostDown
  • CephOSDInternalDiskSizeMismatch
  • CephOSDNearFull
  • CephOSDReadErrors
  • CephOSDTimeoutsClusterNetwork
  • CephOSDTimeoutsPublicNetwork
  • CephOSDTooManyRepairs
  • CephPGBackfillAtRisk
  • CephPGImbalance
  • CephPGNotDeepScrubbed
  • CephPGNotScrubbed
  • CephPGRecoveryAtRisk
  • CephPGsDamaged
  • CephPGsHighPerOSD
  • CephPGsInactive
  • CephPGsUnclean
  • CephPGUnavilableBlockingIO
  • CephPoolBackfillFull
  • CephPoolFull
  • CephPoolGrowthWarning
  • CephPoolNearFull
  • CephSlowOps
  • PrometheusJobMissing

图 7.1. 预定义的警报

预定义的警报

您还可以使用简单网络管理协议(SNMP)陷阱来监控警报。请参阅 Red Hat Ceph Storage 指南中的 SNMP 陷阱配置章节。

7.1. 启用监控堆栈

您可以使用命令行界面手动启用 Red Hat Ceph Storage 集群的监控堆栈,如 Prometheus、Alertmanager 和 Grafana。

您可以使用 Prometheus 和 Alertmanager API 来管理警报和静默。

先决条件

  • 一个正在运行的 Red Hat Ceph Storage 集群。
  • 对所有主机的根级别访问权限。

流程

  1. 登录 cephadm shell:

    示例

    [root@host01 ~]# cephadm shell

  2. 为监控堆栈设置 API:

    • 指定 Alertmanager 服务器的主机和端口:

      语法

      ceph dashboard set-alertmanager-api-host 'ALERTMANAGER_API_HOST:PORT'

      示例

      [ceph: root@host01 /]# ceph dashboard set-alertmanager-api-host 'http://10.0.0.101:9093'
      Option ALERTMANAGER_API_HOST updated

    • 要查看配置的警报,请将 URL 配置为 Prometheus API。使用此 API 时,Ceph 控制面板 UI 会验证新静默是否与对应的警报匹配。

      语法

      ceph dashboard set-prometheus-api-host 'PROMETHEUS_API_HOST:PORT'

      示例

      [ceph: root@host01 /]# ceph dashboard set-prometheus-api-host 'http://10.0.0.101:9095'
      Option PROMETHEUS_API_HOST updated

      设置主机后,刷新浏览器的仪表板窗口。

    • 指定 Grafana 服务器的主机和端口:

      语法

      ceph dashboard set-grafana-api-url 'GRAFANA_API_URL:PORT'

      示例

      [ceph: root@host01 /]# ceph dashboard set-grafana-api-url 'http://10.0.0.101:3000'
      Option GRAFANA_API_URL updated

  3. 获取 Prometheus、Alertmanager 和 Grafana API 主机详情:

    示例

    [ceph: root@host01 /]# ceph dashboard get-alertmanager-api-host
    http://10.0.0.101:9093
    [ceph: root@host01 /]# ceph dashboard get-prometheus-api-host
    http://10.0.0.101:9095
    [ceph: root@host01 /]# ceph dashboard get-grafana-api-url
    http://10.0.0.101:3000

  4. 可选: 如果您在 Prometheus、Alertmanager 或 Grafana 设置中使用自签名证书,请在仪表板中禁用证书验证,这样可避免拒绝由未知证书颁发机构(CA)签名的证书导致的连接,或者与主机名不匹配。

    • 对于 Prometheus:

      示例

      [ceph: root@host01 /]# ceph dashboard set-prometheus-api-ssl-verify False

    • 对于 Alertmanager:

      示例

      [ceph: root@host01 /]# ceph dashboard set-alertmanager-api-ssl-verify False

    • 对于 Grafana:

      示例

      [ceph: root@host01 /]# ceph dashboard set-grafana-api-ssl-verify False

  5. 获取 Prometheus、Alertmanager 和 Grafana 的自签名证书验证设置详情:

    示例

    [ceph: root@host01 /]# ceph dashboard get-prometheus-api-ssl-verify
    [ceph: root@host01 /]# ceph dashboard get-alertmanager-api-ssl-verify
    [ceph: root@host01 /]# ceph dashboard get-grafana-api-ssl-verify

  6. 可选:如果仪表板没有反映更改,则必须禁用并启用仪表板:

    示例

    [ceph: root@host01 /]# ceph mgr module disable dashboard
    [ceph: root@host01 /]# ceph mgr module enable dashboard

其它资源

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.