第 6 章 在 Datadog 中创建警报
管理员可以创建监控器,以跟踪红帽 Ceph 存储集群的指标并生成警报。例如,如果 OSD 已停机,Datadog 可以警告管理员一个或多个 OSD 已停机。
先决条件
- Ceph 监控节点的根级别访问权限.
- 适当的 Ceph 密钥提供对红帽 Ceph 存储集群的访问权限。
- 互联网访问.
流程
单击 Monitors 以查看 Datadog 监视器的概览。
- 要创建 monitor,请选择 Monitors→New Monitor。
选择检测方法。例如:"Threshold Alert。
-
定义指标。要创建高级警报,请点击 Advanced… 链接。然后,从组合框中选择一个指标。例如,选择
ceph.num_in_osds
Ceph 指标。 点 Add Query+ 添加另一个查询。
从组合框中选择另一个指标。例如,选择
ceph.num_up_osds
Ceph 指标。-
在 Express 这些查询 as: 字段中,输入
a-b
,其中a
是ceph.num_in_osds
的值,b是
ceph.num_up_osds
的值。当差别1 或
更大时,至少有一个 OSD 停机。 - 设置警报条件。例如,将触发器设置为 大于或等于, 阈值设为 总值, 而时间已到 1 分钟。
-
将 Alert threshold 字段设置为
1
。如果集群中至少有一个 OSD,并且它没有启动并运行,monitor 将警告该用户。 - 在 Preview 和 Edit 下方的输入字段中为 monitor 赋予标题。这是保存 monitor 所必需的。
在文本字段中输入警报的描述。
注意text 字段支持指标变量和 Markdown 语法。
- 添加警报的接收者。这将向文本字段添加一个电子邮件地址。触发警报时,接收方将收到警报。