使用 Datadog 指南监控 Ceph
使用 Datadog 监控 Ceph 的指南
摘要
第 1 章 监控 Datadog 和 Ceph 复制链接链接已复制到粘贴板!
Datadog 与 Ceph 集成可让 Datadog 执行和处理输出:
-
Ceph 状态 -
Ceph 健康详情 -
ceph df 详情 -
Ceph osd perf; and, -
Ceph osd pool stats。
集成使 Datadog 能够:
- 监控 Red Hat Ceph Storage 集群的状态和健康状况。
- 监控 I/O 和性能指标。
- 跟踪存储池的磁盘用量。
使用 Datadog
使用 Datadog 来监控 Ceph 需要在至少一个 Ceph 监控节点上安装 Datadog 代理。监控 Ceph 时,Datadog 代理将执行 Ceph 命令行参数。因此,每个 Ceph 节点都必须有适当的 Ceph 密钥来提供对集群的访问,通常在 /etc/ceph 中。代理执行 Ceph 命令后,它会发送 Red Hat Ceph Storage 集群状态,以及统计数据回 Datadog。然后,Datadog 将在 Datadog 用户界面中显示状态和统计信息。
由于 Datadog 使用代理,Red Hat Ceph Storage 集群必须能够访问互联网。但是,Red Hat Ceph Storage 集群不必从互联网访问。
Datadog 支持通过 Red Hat Ceph Storage 版本 2 或更高版本来检索 ceph 状态。Datadog 将提供更新,在后续的 dd-agent 版本中支持 Red Hat Ceph Storage 3 集群的 ceph status。
红帽与我们的技术合作伙伴合作,将本文档作为为客户提供服务。但是,红帽不提供对这个产品的支持。如果您需要此产品的技术协助,请联系 Datadog 以获得支持。
第 2 章 为 Ceph 集成安装 Datadog 复制链接链接已复制到粘贴板!
安装 Datadog 代理后,配置 Datadog 代理,以将 Ceph 指标报告为 Datadog。
先决条件
- Ceph 监控节点的根级别访问权限。
- 提供访问 Red Hat Ceph Storage 集群的适当 Ceph 密钥。
- 互联网访问。
流程
安装 Ceph 集成。
- 登录 Datadog 应用程序。用户界面将在屏幕左侧的导航显示。
- 点 Integrations。
- 在搜索字段中输入 ceph,或滚动以查找 Ceph 集成。用户界面将会显示 Ceph 集成 是否可用 。
如果可用,请单击按钮以安装它。
为 Ceph 配置 Datadog 代理
进入 Datadog Agent 配置目录:
cd /etc/dd-agent/conf.d
[root@mon ~]# cd /etc/dd-agent/conf.dCopy to Clipboard Copied! Toggle word wrap Toggle overflow 从
ceph.yml.sample文件创建一个ceph.yaml文件:cp ceph.yaml.example ceph.yaml
[root@mon ~]# cp ceph.yaml.example ceph.yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow 修改
ceph.yaml文件:vim ceph.yaml
[root@mon ~]# vim ceph.yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
以下是修改的
ceph.yaml文件的示例。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 取消注释
-tags、-name、ceph_command、ceph_cluster和use_sudo: True行。ceph_command和ceph_cluster的默认值为/usr/bin/ceph和ceph。完成后,它将类似如下:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 修改 sudoers 文件:
visudo
[root@mon ~]# visudoCopy to Clipboard Copied! Toggle word wrap Toggle overflow 添加以下行:
dd-agent ALL=(ALL) NOPASSWD:/usr/bin/ceph
dd-agent ALL=(ALL) NOPASSWD:/usr/bin/cephCopy to Clipboard Copied! Toggle word wrap Toggle overflow 启用 Datadog 代理,以便在 Ceph 主机重启时重启:
systemctl enable datadog-agent
[root@mon ~]# systemctl enable datadog-agentCopy to Clipboard Copied! Toggle word wrap Toggle overflow 重启 Datadog 代理:
systemctl status datadog-agent
[root@mon ~]# systemctl status datadog-agentCopy to Clipboard Copied! Toggle word wrap Toggle overflow
第 3 章 为 Ceph 安装和配置 Datadog 代理 复制链接链接已复制到粘贴板!
安装 Ceph 的 Datadog 代理,并将它配置为将 Ceph 数据报告回 Datadog App。
先决条件
- Ceph 监控节点的根级别访问权限。
- 提供访问 Red Hat Ceph Storage 集群的适当 Ceph 密钥。
- 互联网访问。
流程
- 登录 Datadog 应用程序。用户界面将在屏幕左侧的导航显示。
点 Integrations。若要从命令行安装代理,请单击屏幕顶部的 Agent 选项卡。
打开命令行,并输入单步命令行代理安装。
示例
DD_API_KEY=KEY-STRING bash -c "$(curl -L https://raw.githubusercontent.com/DataDog/dd-agent/master/packaging/datadog-agent/source/install_agent.sh)"
[root@mon ~]# DD_API_KEY=KEY-STRING bash -c "$(curl -L https://raw.githubusercontent.com/DataDog/dd-agent/master/packaging/datadog-agent/source/install_agent.sh)"Copy to Clipboard Copied! Toggle word wrap Toggle overflow
从 Datadog 用户界面复制示例,因为键与上例和每个用户帐户不同。
第 4 章 使用 Datadog 查看 Ceph 概述 复制链接链接已复制到粘贴板!
安装和配置 Datadog 与 Ceph 集成后,返回到 Datadog App。用户界面将在屏幕左侧的导航显示。
先决条件
- 互联网访问。
流程
将鼠标悬停在 Dashboards 上,以公开子菜单,然后单击 Ceph Overview。
Datadog 显示 Ceph 存储集群的概述。
- 点 Dashboards→New Dashboard 创建自定义 Ceph 仪表板。
第 5 章 Datadog 的 Ceph 指标 复制链接链接已复制到粘贴板!
Datadog 代理从 Ceph 收集以下指标:这些指标可以包含在自定义仪表板和警报中。
| 指标名称 | 描述 |
|---|---|
|
| 将操作提交到日志的时间。 |
|
| 刷新更新到磁盘的时间。 |
|
| 给定池的每秒 I/O 操作数量。 |
|
| 每秒读取的字节数。 |
|
| 写入每秒的字节数。 |
|
| 已知存储守护进程的数量。 |
|
| 参与存储守护进程的数量。 |
|
| 在线存储守护进程数量。 |
|
| 可用的放置组数量。 |
|
| 监控守护进程的数量。 |
|
| 总容量使用量指标。 |
|
| 来自底层对象存储的对象计数。 |
|
| 给定池的对象计数。 |
|
| 每个池的读取字节数。 |
|
| 每个池的写入字节。 |
|
| 池的数量。 |
|
|
|
|
| 每个池的读取操作每秒读取操作。 |
|
| 每个池的写入操作每秒的写入操作。 |
|
| 接近完整 OSD 的数量。 |
|
| 完整 OSD 数量。 |
|
| full 或 near-full OSD 使用的百分比。 |
第 6 章 在 Datadog 中创建警报 复制链接链接已复制到粘贴板!
管理员可以创建监视器来跟踪 Red Hat Ceph Storage 集群的指标并生成警报。例如,如果 OSD 为 down,Datadog 可以提醒管理员一个或多个 OSD 为 down。
先决条件
- Ceph 监控节点的根级别访问权限.
- 提供访问 Red Hat Ceph Storage 集群的适当 Ceph 密钥。
- 互联网访问。
流程
单击 monitor 以查看 Datadog 监视器的概述。
- 要创建监控器,请选择 Monitors→New Monitor。
选择检测方法。例如,"Threshold Alert"。
-
定义指标。要创建高级警报,请点击 Advanced… 链接。然后,从组合框中选择一个指标。例如,选择
ceph.num_in_osdsCeph 指标。 点 Add Query+ 添加另一个查询。
从组合框中选择另一个指标。例如,选择
ceph.num_up_osdsCeph 指标。-
在 Express these queries as: 字段中,输入
a-b,其中a是ceph.num_in_osds的值,b是ceph.num_up_osds的值。当区别为1或更高时,至少有一个 OSD 停机。 - 设置警报条件。例如,将触发器设置为 高于或等于,阈值 的总数以及总时间 为 1 分钟。
-
将 Alert threshold 字段设置为
1。当至少有一个 OSD 位于集群中且未启动并运行时,监控器会警告用户。 - 在 Preview 和 Edit 下的输入字段中,为 monitor 指定一个标题。这是保存监控器所必需的。
在文本字段中输入警报的描述。
注意文本字段支持指标变量和 Markdown 语法。
- 添加警报的接收者。这将向文本字段添加一个电子邮件地址。触发警报时,接收者将收到警报。