第 5 章 使用 Red Hat Ceph Storage 仪表板监控容器中运行的 Ceph 集群
Red Hat Ceph Storage Dashboard 提供了一个监控仪表板,用于视觉化 Ceph Storage 集群的状态。另外,Red Hat Ceph Storage Dashboard 架构提供了一个框架,用于向存储集群添加功能的其他模块。
- 要了解仪表板的信息,请参阅 第 5.1 节 “Red Hat Ceph Storage 仪表板”。
- 要安装仪表板,请参阅 第 5.2 节 “安装 Red Hat Ceph Storage 仪表板”。
- 要访问仪表板,请参阅 第 5.3 节 “访问 Red Hat Ceph Storage 仪表板”。
- 要在安装 Dashboard 后更改默认密码,请参阅 第 5.4 节 “更改默认 Red Hat Ceph Storage 仪表板密码”。
- 要了解 Prometheus 插件,请参阅 第 5.5 节 “Red Hat Ceph Storage 的 Prometheus 插件”。
- 要了解红帽 Ceph 存储仪表板警报以及如何配置它们,请参阅 第 5.6 节 “Red Hat Ceph Storage Dashboard 警报”。
先决条件
- 在容器中运行的 Red Hat Ceph Storage 集群
5.1. Red Hat Ceph Storage 仪表板
Red Hat Ceph Storage Dashboard 提供了一个监控仪表板,供 Ceph 集群用于视觉化存储集群状态。控制面板可通过 Web 浏览器访问,并且提供有关集群状态、监控、OSD、池或网络状态的多个指标和图形。
在以前的 Red Hat Ceph Storage 版本中,监控数据通过 collectd
插件提供,该插件将数据发送到 Graphite 监控实用程序的实例。从 Red Hat Ceph Storage 3.3 开始,使用 ceph-mgr
Prometheus 插件直接从 ceph-mgr
守护进程提供监控数据。
Prometheus 的引入为监控数据源,简化了 Red Hat Ceph Storage Dashboard 解决方案的部署和操作管理,并降低了总体硬件要求。通过直接提供 Ceph 监控数据,Red Hat Ceph Storage Dashboard 解决方案可以更好地支持容器中部署的 Ceph 集群。
在架构中这种变化,没有从 Red Hat Ceph Storage 2.x 和 3.0 到 Red Hat Ceph Storage 3.3 的监控数据的迁移路径。
Red Hat Ceph Storage 仪表板使用以下工具:
- 用于部署的 Ansible 自动化应用程序。
-
嵌入的 Prometheus
ceph-mgr
插件。 -
Prometheus
node-exporter
守护进程在存储集群的每个节点中运行。 - 用于提供用户界面和警报的 Grafana 平台。
Red Hat Ceph Storage Dashboard 支持以下功能:
- 常规功能
- 支持 Red Hat Ceph Storage 3.1 或更高版本
- SELinux 支持
- 支持 FileStore 和 BlueStore OSD 后端
- 支持加密和未加密的 OSD
- 支持 monitor、OSD、Ceph 对象网关和 iSCSI 角色
- 元数据服务器(MDS)的初始支持.
- 深入和仪表板链接
- 15 秒粒度
- 支持硬盘驱动器(HDD)、Solid-state Drives(SSD)、Non-volatile Memory Express(NVMe)接口和 Intel® Cache Acceleration Software(Intel® CAS)
- 节点指标
- CPU 和 RAM 使用量
- 网络负载
- 可配置警报
- 不再(OOB)警报和触发器
- 在安装过程中自动定义通知频道
默认创建的 Ceph Health Summary 仪表板
详情请参阅 Red Hat Ceph Storage Dashboard Alerts 部分。
- 集群概述
- OSD 配置概述
- OSD FileStore 和 BlueStore 总结
- 集群版本按角色划分
- 磁盘大小概述
- 按容量和磁盘计数划分的主机大小
- 放置组(PG)状态分类
- 池计数
- 设备类别摘要, HDD 与.SSD
- 集群详情
-
集群标志状态(
noout
、nodown
及其他) -
OSD 或 Ceph 对象网关主机
up
和down
状态 - 每个池容量使用量
- 原始容量使用率
- 活跃清理和恢复过程的指示符
- 增长跟踪和预测(原始容量)
-
有关处于
down
或near full
或 near full 的 OSD 的信息,包括 OSD 主机和磁盘 - 每个 OSD 的 PG 分布
- OSD 按 PG 数量计算,突出显示超过或正在使用的 OSD
-
集群标志状态(
- OSD 性能
- 按池大约每秒 I/O 操作的信息(IOPS)和吞吐量
- OSD 性能指示器
- 每个 OSD 磁盘统计信息
- 集群范围的磁盘吞吐量
- 读取/写入比率(客户端 IOPS)
- 磁盘利用率 heat 映射
- Ceph 角色的网络负载
- Ceph 对象网关详情
- 聚合负载视图
- 每台主机延迟和吞吐量
- HTTP 操作的工作负载分类
- Ceph iSCSI 网关详情
- 聚合视图
- Configuration
- 性能
- 每个网关资源使用
- 根据客户端载入和配置
- 每个 Ceph 块设备镜像性能