第 7 章 在 Ceph 仪表板上管理警报
作为存储管理员,您可以查看警报详情并在 Red Hat Ceph Storage 仪表板中为它们创建静默。这包括以下预定义警报:
- CephadmDaemonFailed
- CephadmPaused
- CephadmUpgradeFailed
- CephDaemonCrash
- CephDeviceFailurePredicted
- CephDeviceFailurePredictionTooHigh
- CephDeviceFailureRelocationIncomplete
- CephFilesystemDamaged
- CephFilesystemDegraded
- CephFilesystemFailureNoStandby
- CephFilesystemInsufficientStandby
- CephFilesystemMDSRanksLow
- CephFilesystemOffline
- CephFilesystemReadOnly
- CephHealthError
- CephHealthWarning
- CephMgrModuleCrash
- CephMgrPrometheusModuleInactive
- CephMonClockSkew
- CephMonDiskspaceCritical
- CephMonDiskspaceLow
- CephMonDown
- CephMonDownQuorumAtRisk
- CephNodeDiskspaceWarning
- CephNodeInconsistentMTU
- CephNodeNetworkPacketDrops
- CephNodeNetworkPacketErrors
- CephNodeRootFilesystemFull
- CephObjectMissing
- CephOSDBackfillFull
- CephOSDDown
- CephOSDDownHigh
- CephOSDFlapping
- CephOSDFull
- CephOSDHostDown
- CephOSDInternalDiskSizeMismatch
- CephOSDNearFull
- CephOSDReadErrors
- CephOSDTimeoutsClusterNetwork
- CephOSDTimeoutsPublicNetwork
- CephOSDTooManyRepairs
- CephPGBackfillAtRisk
- CephPGImbalance
- CephPGNotDeepScrubbed
- CephPGNotScrubbed
- CephPGRecoveryAtRisk
- CephPGsDamaged
- CephPGsHighPerOSD
- CephPGsInactive
- CephPGsUnclean
- CephPGUnavilableBlockingIO
- CephPoolBackfillFull
- CephPoolFull
- CephPoolGrowthWarning
- CephPoolNearFull
- CephSlowOps
- PrometheusJobMissing
图 7.1. 预定义的警报
您还可以使用简单网络管理协议(SNMP)陷阱来监控警报。请参阅 Red Hat Ceph Storage 指南中的 SNMP 陷阱配置章节。
7.1. 启用监控堆栈
您可以使用命令行界面手动启用 Red Hat Ceph Storage 集群的监控堆栈,如 Prometheus、Alertmanager 和 Grafana。
您可以使用 Prometheus 和 Alertmanager API 来管理警报和静默。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
- 对所有主机的根级别访问权限。
流程
登录
cephadm
shell:示例
[root@host01 ~]# cephadm shell
为监控堆栈设置 API:
指定 Alertmanager 服务器的主机和端口:
语法
ceph dashboard set-alertmanager-api-host 'ALERTMANAGER_API_HOST:PORT'
示例
[ceph: root@host01 /]# ceph dashboard set-alertmanager-api-host 'http://10.0.0.101:9093' Option ALERTMANAGER_API_HOST updated
要查看配置的警报,请将 URL 配置为 Prometheus API。使用此 API 时,Ceph 控制面板 UI 会验证新静默是否与对应的警报匹配。
语法
ceph dashboard set-prometheus-api-host 'PROMETHEUS_API_HOST:PORT'
示例
[ceph: root@host01 /]# ceph dashboard set-prometheus-api-host 'http://10.0.0.101:9095' Option PROMETHEUS_API_HOST updated
设置主机后,刷新浏览器的仪表板窗口。
指定 Grafana 服务器的主机和端口:
语法
ceph dashboard set-grafana-api-url 'GRAFANA_API_URL:PORT'
示例
[ceph: root@host01 /]# ceph dashboard set-grafana-api-url 'http://10.0.0.101:3000' Option GRAFANA_API_URL updated
获取 Prometheus、Alertmanager 和 Grafana API 主机详情:
示例
[ceph: root@host01 /]# ceph dashboard get-alertmanager-api-host http://10.0.0.101:9093 [ceph: root@host01 /]# ceph dashboard get-prometheus-api-host http://10.0.0.101:9095 [ceph: root@host01 /]# ceph dashboard get-grafana-api-url http://10.0.0.101:3000
可选: 如果您在 Prometheus、Alertmanager 或 Grafana 设置中使用自签名证书,请在仪表板中禁用证书验证,这样可避免拒绝由未知证书颁发机构(CA)签名的证书导致的连接,或者与主机名不匹配。
对于 Prometheus:
示例
[ceph: root@host01 /]# ceph dashboard set-prometheus-api-ssl-verify False
对于 Alertmanager:
示例
[ceph: root@host01 /]# ceph dashboard set-alertmanager-api-ssl-verify False
对于 Grafana:
示例
[ceph: root@host01 /]# ceph dashboard set-grafana-api-ssl-verify False
获取 Prometheus、Alertmanager 和 Grafana 的自签名证书验证设置详情:
示例
[ceph: root@host01 /]# ceph dashboard get-prometheus-api-ssl-verify [ceph: root@host01 /]# ceph dashboard get-alertmanager-api-ssl-verify [ceph: root@host01 /]# ceph dashboard get-grafana-api-ssl-verify
可选:如果仪表板没有反映更改,则必须禁用并启用仪表板:
示例
[ceph: root@host01 /]# ceph mgr module disable dashboard [ceph: root@host01 /]# ceph mgr module enable dashboard
其它资源
- 请参阅 Red Hat Ceph Storage 安装指南中的引导命令选项 部分。
- 请参阅 Red Hat Ceph Storage 安装指南中的 Red Hat Ceph Storage 安装一章。
- 请参阅 Red Hat Ceph Storage Operations Guide 中的使用 Ceph Orchestrator 部署监控堆栈部分 。