监控 OpenShift Data Foundation
查看集群运行状况、指标数据或设置警报。
摘要
使开源包含更多
红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。我们从这四个术语开始:master、slave、黑名单和白名单。由于此项工作十分艰巨,这些更改将在即将推出的几个发行版本中逐步实施。详情请查看 CTO Chris Wright 的信息。
对红帽文档提供反馈
我们感谢您对文档提供反馈信息。请告诉我们如何让它更好。提供反馈:
关于特定内容的简单评论:
- 请确定您使用 Multi-page HTML 格式查看文档。另外,确定 Feedback 按钮出现在文档页的右上方。
- 用鼠标指针高亮显示您想评论的文本部分。
- 点在高亮文本上弹出的 Add Feedback。
- 按照显示的步骤操作。
要提交更复杂的反馈,请创建一个 Bugzilla ticket:
- 进入 Bugzilla 网站。
- 在 Component 部分中,选择文档。
- 在 Description 中输入您要提供的信息。包括文档相关部分的链接。
- 点 Submit Bug。
第 1 章 集群健康
1.1. 验证 OpenShift Data Foundation 是否健康
存储运行状况在 Block 和 File 和 Object 仪表板上可见。
流程
- 在 OpenShift Web 控制台中,点 Storage → Data Foundation。
- 在 Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
检查 Status 卡在 Block and File 和 Object 选项卡中是否有绿色勾号。
绿色勾号表示集群处于健康状态。
有关不同健康状态和显示的警报的详情,请查看 第 1.2 节 “存储健康级别和集群状态”。
1.2. 存储健康级别和集群状态
存储控制面板中会显示与 OpenShift Data Foundation 相关的状态信息和警报。
1.2.1. 块和文件仪表板指示符
Block and File 控制面板显示 OpenShift Data Foundation 的完整状态和持久卷的状态。
下表中列出了每种资源类型的可能状态。
状态 | 图标 | 描述 |
---|---|---|
UNKNOWN |
| OpenShift Data Foundation 未部署或不可用。 |
绿色勾号 |
| 集群健康状态良好。 |
警告 |
| OpenShift Data Foundation 集群处于警告状态。在内部模式中,将显示警报以及问题详情。外部模式不会显示警报。 |
Error |
| OpenShift Data Foundation 集群遇到了错误,一些组件无法正常工作。在内部模式中,会显示警报以及问题详情。外部模式不会显示警报。 |
1.2.2. 对象仪表板指示器
Object 仪表板显示 Multicloud 对象网关的状态以及集群中的任何对象声明。
下表中列出了每种资源类型的可能状态。
状态 | 描述 |
---|---|
绿色勾号 | 对象存储处于健康状态。 |
多云对象网关没有运行 | 在 NooBaa 系统未找到时显示。 |
所有资源均不健康 | NooBaa 池不健康时显示。 |
许多存储桶存在问题 | 当 >= 50% 的存储桶遇到错误时显示。 |
有些存储桶出现问题 | 当 >= 30% 的存储桶遇到错误时显示。 |
不可用 | 在网络有问题和/或有错误时显示。 |
1.2.3. 警告面板
当集群状态不健康时,Alerting 面板会出现在 Block and File 仪表板和 Object 仪表板的 Status 卡下方。
OpenShift Data Foundation 故障排除 中提供了有关特定警报以及如何响应它们的信息。
第 2 章 多集群存储健康状况
要查看所有使用 OpenShift Data Foundation 的集群的整体存储健康状况并管理其容量,您必须首先在 Hub 集群上启用多集群仪表板。
2.1. 在 Hub 集群上启用多集群仪表板
您可以使用控制台插件安装 ODF Multicluster Orchestrator 版本 4.11 前或之后,在安装屏幕上启用多集群仪表板。
先决条件
流程
创建名为
observability-metrics-custom-allowlist.yaml
的 configmap 文件,并将自定义指标的名称添加到metrics_list.yaml
参数。您可以使用以下 YAML 列出 Hub 集群上的 OpenShift Data Foundation 指标。详情请参阅 添加自定义指标。
kind: ConfigMap apiVersion: v1 metadata: name: observability-metrics-custom-allowlist Namespace: open-cluster-management-observability data: metrics_list.yaml: | names: - odf_system_health_status - odf_system_map - odf_system_raw_capacity_total_bytes - odf_system_raw_capacity_used_bytes matches: - __name__="csv_succeeded",exported_namespace="openshift-storage",name=~"odf-operator.*"
在 中运行以下命令与
open-cluster-management-observability
命名空间匹配:# oc apply -n open-cluster-management-observability -f observability-metrics-custom-allowlist.yaml
创建 observability-metrics-custom-allowlist yaml 后,RHACM 将开始从所有受管集群收集列出的 OpenShift Data Foundation 指标。
如果要排除特定的受管集群收集可观察性数据,请在集群中添加以下集群标签:
observability: disabled
。- 要查看多集群健康状况,请参阅验证 多集群存储仪表板。
2.2. 在 hub 集群上验证多集群存储健康状况
先决条件
确保启用了多集群监控。具体步骤请参阅 启用多集群仪表板。
流程
- 在 Hub 集群的 OpenShift Web 控制台中,确保选择了 All Clusters。
- 进入到 Data Services,再点 Storage System。
- 在 Overview 选项卡上,验证 OpenShift Data Foundation 和 Systems 前面的绿色勾号。这表明操作器正在运行,所有存储系统都可用。
在状态卡中,
- 点 OpenShift Data Foundation 以查看 operator 状态。
- 点 Systems 查看存储系统状态。
存储系统容量 卡显示以下详情:
- 存储系统的名称
- 集群名称
- 总计和使用容量的图形表示,以百分比表示
- 实际的总容量和已用容量,以 TiB 为单位
第 3 章 指标
3.1. Block 和 File 仪表板中的指标
您可以在 OpenShift Web 控制台中导航到 Block and File 仪表板,如下所示:
- 点 Storage → Data Foundation。
- 在 Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
- 单击 Block and File 选项卡。
Block 和 File 仪表板上的以下卡根据部署模式(内部或外部)提供指标:
- 详情卡
详情卡显示以下内容:
- 服务名称
- 集群名称
-
系统运行的供应商的名称(例如:
AWS
、VSphere
和None
用于裸机) - 模式(作为内部或外部的部署模式)
- OpenShift Data Foundation 操作器版本。
- 清单卡
- 清单(Inventory)卡显示 OpenShift Data Foundation 置备程序支持的活跃节点、PVC 和 PV 的数量。在卡的左侧,会显示存储节点、PVC 和 PV 的总数。在卡的右侧,会显示处于 Not Ready 状态的存储节点数,以 Pending 状态和 Released 状态的 PV 计数。
对于外部模式,节点数量默认为 0,因为 OpenShift Data Foundation 没有专用的节点。
- 状态卡
这个卡显示了集群是否在没有错误的情况下启动并运行,还是遇到一些问题。
对于内部模式,Data Resiliency 表示 Ceph 中跨副本的数据重新平衡状态。当内部模式集群处于 warning 或 error 状态时,Alerts 部分会与相关的警报一起显示。
对于外部模式,不会显示数据弹性和警报
- 原始容量卡
这个卡显示了集群中包括复制在内的原始存储容量总量。
-
使用的
图例表示集群中的原始存储容量 -
可用
图例表示群集上可用的原始存储容量。
-
这个卡不适用于外部模式集群。
- 使用的 Capacity Breakdown 卡
此卡显示了集群中存储的实际非复制数据及其分发量。您可以从卡顶部的下拉菜单中选择项目、存储类和 Pod。这些选项用于过滤图形中显示的数据。图中根据使用情况仅显示前五个实体的已用容量。其余实体的总使用量显示为其他实体。
选项 显示 项目
使用 OpenShift Data Foundation 以及正在使用的每个项目的总容量。
存储类
基于 OpenShift Data Foundation 的存储类的聚合容量。
Pods
所有尝试使用 OpenShift Data Foundation 置备程序支持的 PVC 的 pod。
有关外部模式,请查看 Capacity 分类卡。
- 容量分类卡
- 这个卡只适用于外部模式集群。在这个卡中,您可以查看每个项目、存储类和 pod 容量的图形分类。您可以从卡顶部的下拉菜单中选择项目、存储类和 Pod。这些选项用于过滤图形中显示的数据。图中根据使用情况仅显示前五个实体的已用容量。其余实体的总使用量显示为其他实体。
- 使用率卡
这个卡显示了内部模式集群的已用容量、输入/输出操作每秒、延迟、吞吐量和恢复信息。
对于外部模式,这个卡只会显示该集群的已用和请求的容量详情。
- 存储效率卡
- 此卡显示压缩率,它表示可压缩的数据效率指标,其中包含所有启用压缩的池。它还显示用于表示保存的实际磁盘容量的储蓄指标,其中包含所有启用压缩的池和相关副本。
- 活动卡
此卡显示了 OpenShift Data Foundation 集群中正在发生或最近发生哪些活动。该卡分为两个部分:
- Ongoing:显示与重建数据弹性和 OpenShift Data Foundation 操作器升级相关的持续活动进度。
-
Recent Events:显示
openshift-storage
命名空间中发生的事件列表。
3.2. 对象仪表板中的指标
您可以导航到 OpenShift Web 控制台中的 Object 仪表板,如下所示:
- 点 Storage → Data Foundation。
- 在 Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
- 单击 Object 选项卡。
Object 仪表板中提供了以下指标:
- 详情卡
这个卡显示以下信息:
- 服务名称:Multicloud Object Gateway(MCG)服务名称。
- 系统名称 :多云对象网关和 RADOS 对象网关系统名称。Multicloud 对象网关系统名称也是 MCG 管理用户界面的超链接。
-
Provider :系统运行的供应商的名称(例如:
AWS
、VSphere
和None
用于裸机) - Version :OpenShift Data Foundation operator 版本。
- 存储效率卡
- 在这个卡中,您可以查看 MCG 如何通过重复数据删除和压缩来优化存储后端资源的消耗,并为您提供计算的效率比例(应用程序数据与逻辑数据)和估计节省图(MCG 未发送到存储供应商的字节数),基于裸机存储和基于云的存储容量以及基于云的存储和云存储出口的容量。
- bucket(存储桶)卡
bucket 由 MCG 和 RADOS 对象网关维护,以代表应用存储数据。这些 bucket 通过对象存储桶声明(OBC)创建并访问。可以将特定策略应用到 bucket,以自定义数据放置、数据蔓延、数据弹性、容量配额等。
在这个卡中,对象存储桶(OB)和对象存储桶声明(OBC)的信息单独显示。OB 包括使用 S3 或用户界面(UI)和 OBC 创建的所有存储桶,OBC 包括使用 YAML 或命令行界面(CLI)创建的所有存储桶。bucket 类型左侧显示的数量是 OB 或 OBCs 的总计数。右侧显示的数字显示错误计数,只有在错误计数大于零时才可见。您可以点击数字来查看具有警告或错误状态的存储桶列表。
- 资源供应商卡
- 此卡显示当前正在使用的所有多云对象网关和 RADOS 对象网关资源的列表。这些资源用于根据存储桶策略存储数据,可以是基于云的资源,也可以是裸机资源。
- 状态卡
此卡显示了系统及其服务是否正在毫无问题的情况下运行。当系统处于警告或错误状态时,将显示 alerts 部分,并在其中显示相关警报。单击每个警报旁边的警报链接,以获取有关此问题的更多信息。有关健康检查的信息,请参阅集群健康状况。
如果集群中提供了多个对象存储服务,请单击服务类型(如 Object Service 或 Data Resiliency)以查看各个服务的状态。
状态卡中的数据弹性指示有关通过多云对象网关和 RADOS 对象网关存储的数据是否有任何弹性问题。
- 容量分类卡
- 在此卡中,您可以视觉化应用如何通过多云对象网关和 RADOS 对象网关使用对象存储。您可以使用 Service Type 下拉列表单独查看多云网关和对象网关的容量细分。在查看 Multicloud 对象网关时,您可以使用 Break By 下拉菜单按 项目或 Bucket 类 过滤图表。
- 性能卡
在此卡中,您可以查看多云对象网关或 RADOS 对象网关的性能。使用 Service Type 下拉菜单选择您要查看的内容。
对于多云对象网关帐户,您可以查看 I/O 操作和逻辑使用容量。对于供应商,您可以查看 I/O 操作、物理和逻辑使用情况以及出口。
下表解释了您可以根据您从卡顶部下拉菜单中选择的不同指标来查看的不同指标:
表 3.1. 多云对象网关的指标 消费者类型 指标 Chart 显示 帐户
I/O 操作
显示前五个使用者的读写 I/O 操作。所有消费者的读取和写入总量都显示在底部。这些信息可帮助您监控每个应用程序或帐户的吞吐量需求(IOPS)。
帐户
逻辑使用容量
显示每个帐户在前五个消费者的逻辑使用总数。这可帮助您监控每个应用或帐户的吞吐量需求。
供应商
I/O 操作
显示在访问供应商托管的存储后端时 MCG 生成的 I/O 操作计数。这有助于您了解云中的流量,以便您可以根据 I/O 模式改进资源分配,从而优化成本。
供应商
物理与逻辑使用情况
通过比较物理使用情况和每个提供程序的逻辑使用量来显示系统中的数据消耗。这可帮助您控制存储资源,并根据您的使用特征和性能要求制定放置策略,同时有可能优化您的成本。
供应商
Egress
MCG 从每个供应商检索的数据量(读取带宽源自应用程序)。这有助于您了解云中的流量,从而根据出口模式改进资源分配,从而优化成本。
对于 RADOS 对象网关,您可以使用 Metric 下拉列表来查看 延迟 或 带宽。
- Latency:提供 RADOS 对象网关实例之间平均 GET/PUT 延迟的视觉指示。
- Bandwidth:提供 RADOS 对象网关实例之间 GET/PUT 带宽总和的可视化指示。
- 活动卡
此卡片显示 OpenShift Data Foundation 集群中正在发生或最近发生的活动。该卡分为两个部分:
- Ongoing:显示与重建数据弹性和 OpenShift Data Foundation 操作器升级相关的持续活动进度。
-
Recent Events:显示
openshift-storage
命名空间中发生的事件列表。
3.3. 池指标
池指标控制面板提供的信息可以确保高效数据消耗,以及如何启用或禁用压缩(如果效率降低)。
查看池指标
查看池列表:
- 点 Storage → Data Foundation。
- 在 Storage Systems 选项卡中,选择 storage 系统,然后单击 BlockPools。
当您单击池名称时,会在每个池仪表板上显示以下卡片,以及基于部署模式(内部或外部)的指标:
- 详情卡
详情卡显示以下内容:
- 池名称
- 卷类型
- Replicas
- 状态卡
- 此卡显示了池是否已启动并运行,且没有任何错误,或遇到一些问题。
- 镜像卡
启用镜像选项后,这个卡会显示镜像状态、镜像健康状况和最后检查的时间戳。当启用集群级别镜像时,会显示镜像指标。这些指标有助于防止灾难恢复失败,并通知任何差异,以便数据保持不变。
镜像卡显示高级别信息,例如:
- 镜像状态,可以是特定池的启用或禁用状态。
- 池下所有镜像的状态,无论是否成功复制。
- 正在复制且未复制的镜像的百分比。
- 清单卡
- 清单卡显示存储类和持久性卷声明的数量。
- 压缩卡
此卡显示压缩状态为启用或禁用(根据情况)。它还显示存储效率详情,如下所示:
- 压缩资格,表示写入符合压缩适用数据的部分数据是可压缩的(每个 ceph 参数)
- 压缩适用数据的压缩率
压缩节省了符合压缩数据的总节省(包括副本)
有关如何为现有池启用或禁用压缩的详情,请参考更新现有池。
- 原始容量卡
这个卡显示了集群中包括复制在内的原始存储容量总量。
-
使用的
图例表示池使用的存储容量 -
可用
图例表示集群中可用的原始存储容量
-
- 性能卡
- 在这个卡中,您可以查看每个应用程序或帐户的 I/O 操作使用情况和吞吐量需求。图中指出实例之间的平均延迟或带宽。
第 4 章 警报
4.1. 设置警报
对于内部模式集群,Block 和 File 以及对象仪表板中会显示与存储指标服务、存储集群、磁盘设备、集群健康状况、集群容量等相关的各种警报。这些警报不适用于外部模式。
在警报面板中显示警报可能需要几分钟时间,因为仅触发警报在此面板中可见。
您还可以查看其他详情的警报,并自定义 OpenShift Container Platform 中的 Alerts 显示。
如需更多信息,请参阅管理警报。
第 5 章 远程健康监控
OpenShift Data Foundation 会收集有关集群健康、使用情况和集群大小的匿名聚合信息,并通过一个名为 Telemetry 的集成组件向红帽报告。通过这些信息,红帽可以改进 OpenShift Data Foundation,并更快地对影响客户的问题做出反应。
通过 Telemetry 向红帽报告数据的集群被视为连接的集群。
5.1. 关于 Telemetry
Telemetry 会向红帽发送一组精选的集群监控指标子集。这些指标会持续发送并描述:
- OpenShift Data Foundation 集群的大小
- OpenShift Data Foundation 组件的健康和状态
- 正在进行的任何升级的健康和状态
- 有关 OpenShift Data Foundation 组件和功能的有限使用情况信息
- 有关集群监控组件所报告的警报的摘要信息
红帽将使用这一持续数据流实时监控集群的健康,必要时将对影响客户的问题做出反应。同时还有助于红帽向客户推出 OpenShift Data Foundation 升级,以便最大程度降低服务影响,持续改进升级体验。
这类调试信息将提供给红帽支持和工程团队,其访问限制等同于访问通过问题单报告的数据。红帽利用所有连接集群信息来帮助改进 OpenShift Data Foundation,提高其易用性。所有这些信息都不会与第三方共享。
5.2. Telemetry 收集的信息
Telemetry 收集的主要信息包括:
-
以字节为单位的 Ceph 集群大小 :
"ceph_cluster_total_bytes"
, -
以字节为单位使用的 Ceph 集群存储量 :
"ceph_cluster_total_used_raw_bytes"
, -
Ceph 集群健康状态 :
"ceph_health_status"
, -
对象存储设备 (OSD) 的总数:"
job:ceph_osd_metadata:count"
, -
Red Hat OpenShift Container Platform 集群中存在的 OpenShift Data Foundation 持久性卷 (PV) 的总数量:
"job:kube_pv:count"
, -
Ceph 集群中的所有池的每秒输入/输出操作总数 (IOPS)(reads+writes) 值:
"job:ceph_pools_iops:total"
, -
Ceph 集群中所有池的总 IOPS (reads+writes) 值
"job:ceph_pools_iops_bytes:total"
, -
运行的 Ceph 集群版本总数:
"job:ceph_versions_running:count"
-
不健康的 NooBaa bucket 的总数:
"job:noobaa_total_unhealthy_buckets:sum"
, -
NooBaa bucket 总数:
"job:noobaa_bucket_count:sum"
, -
NooBaa 对象的总数:
"job:noobaa_total_object_count:sum"
, -
NooBaa 帐户数 :
"noobaa_accounts_num"
, -
NooBaa 的内存使用总量,以字节为单位:
"noobaa_total_usage"
, -
PVC 从特定存储置备程序请求的存储总量(以字节为单位):
"cluster:kube_persistentvolumeclaim_resource_requests_storage_bytes:provisioner:sum"
, -
PVC 使用的存储总量(以字节为单位) :
"cluster:kubelet_volume_stats_used_bytes:provisioner:sum"
。
Telemetry 不会收集任何身份识别的信息,如用户名、密码、用户资源的名称或地址。