监控 OpenShift Data Foundation


Red Hat OpenShift Data Foundation 4.13

查看集群运行状况、指标数据或设置警报。

Red Hat Storage Documentation Team

摘要

有关使用块和文件以及对象仪表板监控 Red Hat OpenShift Data Foundation 的说明,请阅读本文档。

使开源包含更多

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。我们从这四个术语开始:master、slave、黑名单和白名单。由于此项工作十分艰巨,这些更改将在即将推出的几个发行版本中逐步实施。详情请查看 CTO Chris Wright 的信息

对红帽文档提供反馈

我们感谢您对文档提供反馈信息。请告诉我们如何让它更好。

要提供反馈,请创建一个 Bugzilla ticket:

  1. 进入 Bugzilla 网站。
  2. Component 部分中,选择 文档
  3. Description 中输入您要提供的信息。包括文档相关部分的链接。
  4. Submit Bug

第 1 章 集群健康

1.1. 验证 OpenShift Data Foundation 是否健康

存储运行状况在 Block 和 File 和 Object 仪表板上可见。

流程

  1. 在 OpenShift Web 控制台中,点 StorageData Foundation
  2. Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
  3. 检查 Status 卡在 Block and FileObject 选项卡中是否有绿色勾号。

    绿色勾号表示集群处于健康状态。

有关不同健康状态和显示的警报的详情,请查看 第 1.2 节 “存储健康级别和集群状态”

1.2. 存储健康级别和集群状态

存储控制面板中会显示与 OpenShift Data Foundation 相关的状态信息和警报。

1.2.1. 块和文件仪表板指示符

Block and File 控制面板显示 OpenShift Data Foundation 的完整状态和持久卷的状态。

下表中列出了每种资源类型的可能状态。

表 1.1. OpenShift Data Foundation 健康级别
状态图标描述

UNKNOWN

unknown icon

OpenShift Data Foundation 未部署或不可用。

绿色勾号

odf health icon green

集群健康状态良好。

警告

odf health icon yellow

OpenShift Data Foundation 集群处于警告状态。在内部模式中,将显示警报以及问题详情。外部模式不会显示警报。

Error

odf health icon red

OpenShift Data Foundation 集群遇到了错误,一些组件无法正常工作。在内部模式中,会显示警报以及问题详情。外部模式不会显示警报。

1.2.2. 对象仪表板指示器

Object 仪表板显示 Multicloud 对象网关的状态以及集群中的任何对象声明。

下表中列出了每种资源类型的可能状态。

表 1.2. 对象服务健康级别
状态描述

绿色勾号 odf health icon green

对象存储处于健康状态。

多云对象网关没有运行

在 NooBaa 系统未找到时显示。

所有资源均不健康

NooBaa 池不健康时显示。

许多存储桶存在问题

当 >= 50% 的存储桶遇到错误时显示。

有些存储桶出现问题

当 >= 30% 的存储桶遇到错误时显示。

不可用

在网络有问题和/或有错误时显示。

1.2.3. 警告面板

当集群状态不健康时,Alerting 面板会出现在 Block and File 仪表板和 Object 仪表板的 Status 卡下方。

OpenShift Data Foundation 故障排除 中提供了有关特定警报以及如何响应它们的信息。

第 2 章 多集群存储健康状况

要使用 OpenShift Data Foundation 查看所有集群的整体存储健康状况,并管理其容量,您必须首先在 Hub 集群上启用多集群仪表板。

2.1. 在 Hub 集群上启用多集群仪表板

在使用控制台插件安装 ODF Multicluster Orchestrator 之前或之后,您可以在安装屏幕上启用多集群仪表板。

先决条件

  • 确保已安装 OpenShift Container Platform 版本 4.13 并具有管理员特权。
  • 确保安装了启用了控制台的带有插件的 Multicluster Orchestrator 4.13 operator。
  • 确保已从 Operator Hub 安装了 Red Hat Advanced Cluster Management for Kubernetes (RHACM) 2.8。有关如何安装的步骤,请参阅安装 RHACM
  • 确保已在 RHACM 上启用了可观察性。请参阅启用可观察性指南

流程

  1. 创建名为 observability-metrics-custom-allowlist.yaml 的 configmap 文件,并将自定义指标的名称添加到 metrics_list.yaml 参数。

    您可以使用以下 YAML 列出 Hub 集群中的 OpenShift Data Foundation 指标。详情请参阅添加自定义指标

    kind: ConfigMap
    apiVersion: v1
    metadata:
      name: observability-metrics-custom-allowlist
      Namespace: open-cluster-management-observability
    data:
      metrics_list.yaml: |
        names:
          - odf_system_health_status
          - odf_system_map
          - odf_system_raw_capacity_total_bytes
          - odf_system_raw_capacity_used_bytes
        matches:
          - __name__="csv_succeeded",exported_namespace="openshift-storage",name=~"odf-operator.*"
    Copy to Clipboard
  2. open-cluster-management-observability 命名空间中运行以下命令:

    # oc apply -n open-cluster-management-observability -f observability-metrics-custom-allowlist.yaml
    Copy to Clipboard

    创建 observability-metrics-custom-allowlist yaml 后,RHACM 将开始从所有受管集群收集列出的 OpenShift Data Foundation 指标。

    如果要排除特定的受管集群收集可观察性数据,请在集群中添加以下集群标签: observability: disabled

  3. 要查看多集群健康状况,请参阅验证多集群存储仪表板

2.2. 在 hub 集群上验证多集群存储健康状况

先决条件

确保启用了多集群监控。具体步骤,请参阅启用多集群仪表板

流程

  1. 在 Hub 集群的 OpenShift Web 控制台中,确保选择了 All Clusters
  2. 进入到 Data Services,再点 Storage System
  3. 在 Overview 选项卡上,验证 OpenShift Data FoundationSystems 前面的绿色勾号。这表明 operator 正在运行,所有存储系统都可用。
  4. 在状态卡中,

    1. OpenShift Data Foundation 以查看 operator 状态。
    2. Systems 查看存储系统状态。
  5. 存储系统容量卡显示以下详情:

    • 存储系统的名称
    • 集群名称
    • 总计和使用容量的图形表示,以百分比表示
    • 实际的总容量和已用容量,以 TiB 为单位

第 3 章 指标

3.1. Block 和 File 仪表板中的指标

您可以在 OpenShift Web 控制台中导航到 Block and File 仪表板,如下所示:

  1. StorageData Foundation
  2. Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
  3. 单击 Block and File 选项卡。

Block 和 File 仪表板上的以下卡根据部署模式(内部或外部)提供指标:

详情卡

详情卡显示以下内容:

  • 服务名称
  • 集群名称
  • 系统运行的供应商的名称(例如: AWSVSphereNone 用于裸机)
  • 模式(作为内部或外部的部署模式)
  • OpenShift Data Foundation 操作器版本。
清单卡
清单(Inventory)卡显示 OpenShift Data Foundation 置备程序支持的活跃节点、PVC 和 PV 的数量。在卡的左侧,会显示存储节点、PVC 和 PV 的总数。在卡的右侧,会显示处于 Not Ready 状态的存储节点数,以 Pending 状态和 Released 状态的 PV 计数。
注意

对于外部模式,节点数量默认为 0,因为 OpenShift Data Foundation 没有专用的节点。

状态卡

这个卡显示了集群是否在没有错误的情况下启动并运行,还是遇到一些问题。

对于内部模式,Data Resiliency 表示 Ceph 中跨副本的数据重新平衡状态。当内部模式集群处于 warning 或 error 状态时,Alerts 部分会与相关的警报一起显示。

对于外部模式,不会显示数据弹性和警报

原始容量卡

这个卡显示了集群中包括复制在内的原始存储容量总量。

  • 使用的图例表示集群中的原始存储容量
  • 可用图例表示群集上可用的原始存储容量。
注意

这个卡不适用于外部模式集群。

使用的 Capacity Breakdown 卡

此卡显示了集群中存储的实际非复制数据及其分发量。您可以从卡顶部的下拉菜单中选择项目、存储类和 Pod。这些选项用于过滤图形中显示的数据。图中根据使用情况仅显示前五个实体的已用容量。其余实体的总使用量显示为其他实体。

选项显示

项目

使用 OpenShift Data Foundation 以及正在使用的每个项目的总容量。

存储类

基于 OpenShift Data Foundation 的存储类的聚合容量。

Pods

所有尝试使用 OpenShift Data Foundation 置备程序支持的 PVC 的 pod。

有关外部模式,请查看 Capacity 分类卡

容量分类卡
这个卡只适用于外部模式集群。在这个卡中,您可以查看每个项目、存储类和 pod 容量的图形分类。您可以从卡顶部的下拉菜单中选择项目、存储类和 Pod。这些选项用于过滤图形中显示的数据。图中根据使用情况仅显示前五个实体的已用容量。其余实体的总使用量显示为其他实体。
使用率卡

这个卡显示了内部模式集群的已用容量、输入/输出操作每秒、延迟、吞吐量和恢复信息。

对于外部模式,这个卡只会显示该集群的已用和请求的容量详情。

存储效率卡
此卡显示压缩率,它表示可压缩的数据效率指标,其中包含所有启用压缩的池。它还显示用于表示保存的实际磁盘容量的储蓄指标,其中包含所有启用压缩的池和相关副本。
活动卡

此卡显示了 OpenShift Data Foundation 集群中正在发生或最近发生哪些活动。该卡分为两个部分:

  • Ongoing:显示与重建数据弹性和 OpenShift Data Foundation 操作器升级相关的持续活动进度。
  • Recent Events:显示 openshift-storage 命名空间中发生的事件列表。

3.2. 对象仪表板中的指标

您可以导航到 OpenShift Web 控制台中的 Object 仪表板,如下所示:

  1. StorageData Foundation
  2. Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
  3. 单击 Object 选项卡。

Object 仪表板中提供了以下指标:

详情卡

这个卡显示以下信息:

  • 服务名称:Multicloud Object Gateway(MCG)服务名称。
  • 系统名称 :多云对象网关和 RADOS 对象网关系统名称。Multicloud 对象网关系统名称也是 MCG 管理用户界面的超链接。
  • Provider :系统运行的供应商的名称(例如:AWSVSphereNone 用于裸机)
  • Version :OpenShift Data Foundation operator 版本。
存储效率卡
在这个卡中,您可以查看 MCG 如何通过重复数据删除和压缩来优化存储后端资源的消耗,并为您提供计算的效率比例(应用程序数据与逻辑数据)和估计节省图(MCG 未发送到存储供应商的字节数),基于裸机存储和基于云的存储容量以及基于云的存储和云存储出口的容量。
bucket(存储桶)卡

bucket 由 MCG 和 RADOS 对象网关维护,以代表应用存储数据。这些 bucket 通过对象存储桶声明(OBC)创建并访问。可以将特定策略应用到 bucket,以自定义数据放置、数据蔓延、数据弹性、容量配额等。

在这个卡中,对象存储桶(OB)和对象存储桶声明(OBC)的信息单独显示。OB 包括使用 S3 或用户界面(UI)和 OBC 创建的所有存储桶,OBC 包括使用 YAML 或命令行界面(CLI)创建的所有存储桶。bucket 类型左侧显示的数量是 OB 或 OBCs 的总计数。右侧显示的数字显示错误计数,只有在错误计数大于零时才可见。您可以点击数字来查看具有警告或错误状态的存储桶列表。

资源供应商卡
此卡显示当前正在使用的所有多云对象网关和 RADOS 对象网关资源的列表。这些资源用于根据存储桶策略存储数据,可以是基于云的资源,也可以是裸机资源。
状态卡

此卡显示了系统及其服务是否正在毫无问题的情况下运行。当系统处于警告或错误状态时,将显示 alerts 部分,并在其中显示相关警报。单击每个警报旁边的警报链接,以获取有关此问题的更多信息。有关健康检查的信息,请参阅集群健康状况

如果集群中提供了多个对象存储服务,请单击服务类型(如 Object ServiceData Resiliency)以查看各个服务的状态。

状态卡中的数据弹性指示有关通过多云对象网关和 RADOS 对象网关存储的数据是否有任何弹性问题。

容量分类卡
在此卡中,您可以视觉化应用如何通过多云对象网关和 RADOS 对象网关使用对象存储。您可以使用 Service Type 下拉列表单独查看多云网关和对象网关的容量细分。在查看 Multicloud 对象网关时,您可以使用 Break By 下拉菜单按 项目Bucket 类 过滤图表。
性能卡

在此卡中,您可以查看多云对象网关或 RADOS 对象网关的性能。使用 Service Type 下拉菜单选择您要查看的内容。

对于多云对象网关帐户,您可以查看 I/O 操作和逻辑使用容量。对于供应商,您可以查看 I/O 操作、物理和逻辑使用情况以及出口。

下表解释了您可以根据您从卡顶部下拉菜单中选择的不同指标来查看的不同指标:

表 3.1. 多云对象网关的指标
消费者类型指标Chart 显示

帐户

I/O 操作

显示前五个使用者的读写 I/O 操作。所有消费者的读取和写入总量都显示在底部。这些信息可帮助您监控每个应用程序或帐户的吞吐量需求(IOPS)。

帐户

逻辑使用容量

显示每个帐户在前五个消费者的逻辑使用总数。这可帮助您监控每个应用或帐户的吞吐量需求。

供应商

I/O 操作

显示在访问供应商托管的存储后端时 MCG 生成的 I/O 操作计数。这有助于您了解云中的流量,以便您可以根据 I/O 模式改进资源分配,从而优化成本。

供应商

物理与逻辑使用情况

通过比较物理使用情况和每个提供程序的逻辑使用量来显示系统中的数据消耗。这可帮助您控制存储资源,并根据您的使用特征和性能要求制定放置策略,同时有可能优化您的成本。

供应商

Egress

MCG 从每个供应商检索的数据量(读取带宽源自应用程序)。这有助于您了解云中的流量,从而根据出口模式改进资源分配,从而优化成本。

对于 RADOS 对象网关,您可以使用 Metric 下拉列表来查看 延迟带宽

  • Latency:提供 RADOS 对象网关实例之间平均 GET/PUT 延迟的视觉指示。
  • Bandwidth:提供 RADOS 对象网关实例之间 GET/PUT 带宽总和的可视化指示。
活动卡

此卡片显示 OpenShift Data Foundation 集群中正在发生或最近发生的活动。该卡分为两个部分:

  • Ongoing:显示与重建数据弹性和 OpenShift Data Foundation 操作器升级相关的持续活动进度。
  • Recent Events:显示 openshift-storage 命名空间中发生的事件列表。

3.3. 池指标

池指标控制面板提供的信息可以确保高效数据消耗,以及如何启用或禁用压缩(如果效率降低)。

查看池指标

查看池列表:

  1. Storage → Data Foundation
  2. Storage Systems 选项卡中,选择 storage 系统,然后单击 BlockPools

当您单击池名称时,会在每个池仪表板上显示以下卡片,以及基于部署模式(内部或外部)的指标:

详情卡

详情卡显示以下内容:

  • 池名称
  • 卷类型
  • Replicas
状态卡
此卡显示了池是否已启动并运行,且没有任何错误,或遇到一些问题。
镜像卡

启用镜像选项后,这个卡会显示镜像状态、镜像健康状况和最后检查的时间戳。当启用集群级别镜像时,会显示镜像指标。这些指标有助于防止灾难恢复失败,并通知任何差异,以便数据保持不变。

镜像卡显示高级别信息,例如:

  • 镜像状态,可以是特定池的启用或禁用状态。
  • 池下所有镜像的状态,无论是否成功复制。
  • 正在复制且未复制的镜像的百分比。
清单卡
清单卡显示存储类和持久性卷声明的数量。
压缩卡

此卡显示压缩状态为启用或禁用(根据情况)。它还显示存储效率详情,如下所示:

  • 压缩资格,表示写入符合压缩适用数据的部分数据是可压缩的(每个 ceph 参数)
  • 压缩适用数据的压缩率
  • 压缩节省了符合压缩数据的总节省(包括副本)

    有关如何为现有池启用或禁用压缩的详情,请参考更新现有池

原始容量卡

这个卡显示了集群中包括复制在内的原始存储容量总量。

  • 使用的图例表示池使用的存储容量
  • 可用图例表示集群中可用的原始存储容量
性能卡
在这个卡中,您可以查看每个应用程序或帐户的 I/O 操作使用情况和吞吐量需求。图中指出实例之间的平均延迟或带宽。

3.4. 网络文件系统指标

网络文件系统 (NFS) 指标仪表板为 NFS 挂载提供了增强的可观察性,如下所示:

  • 任何导出的 NFS 共享的挂载点
  • 客户端挂载数
  • 连接到帮助确定内部与外部客户端挂载的客户端的分类统计信息
  • Ganesha 服务器的宽限期状态
  • Ganesha 服务器的健康状况

先决条件

  • 已安装 OpenShift Container Platform,您还可管理 OpenShift Web 控制台。
  • 确保启用了 NFS。

流程

您可以进入到 OpenShift Web 控制台中的网络文件系统仪表板,如下所示:

  1. StorageData Foundation
  2. Overview 选项卡的 Status 卡中,点 Storage System,然后点弹出框中的存储系统链接。
  3. 网络文件系统选项卡。

    这个标签页仅在启用 NFS 时才可用。

注意

当使用命令行界面启用或禁用 NFS 时,您必须执行硬刷新,以便在仪表板中显示或隐藏网络文件系统选项卡。

此时会显示以下 NFS 指标:

状态卡
此卡根据活跃 worker 线程总数显示服务器的状态。非零线程指定健康状态。
吞吐量卡
此卡显示服务器的吞吐量,这是服务器读取和写入操作的总请求字节数和总响应字节。
顶级客户端卡
此卡显示客户端吞吐量,这是客户端发送的响应字节总和,以及客户端为读写操作的总请求字节。它显示了此类客户端中的前三个。

3.5. 在 RBD 和 CephFS 卷中启用元数据

您可以在 RADOS 块设备(RBD)和 CephFS 卷中设置持久性卷声明(PVC)、持久性卷(PV)和命名空间名称,以用于监控目的。这可让您读取 RBD 和 CephFS 元数据,以识别 OpenShift Container Platform 和 RBD 和 CephFS 卷之间的映射。

要启用 RADOS 块设备(RBD)和 CephFS 卷元数据功能,您需要在 rook-ceph-operator-config configmap 中设置 CSI_ENABLE_METADATA 变量。默认情况下禁用此功能。如果您在从以前的版本升级后启用了这个功能,现有的 PVC 将不会包含元数据。另外,当启用元数据功能时,在启用前创建的 PVC 没有元数据。

先决条件

  • 确保安装 ocs_operator 并为 Operator 创建 storagecluster
  • 确保 storagecluster 处于 Ready 状态。

    $ oc get storagecluster
    NAME                 AGE   PHASE   EXTERNAL   CREATED AT             VERSION
    ocs-storagecluster   57m   Ready              2022-08-30T06:52:58Z   4.12.0
    Copy to Clipboard

流程

  1. 编辑 rook-ceph operator ConfigMap,将 CSI_ENABLE_METADATA 标记为 true

    $ oc patch cm rook-ceph-operator-config -n openshift-storage -p $'data:\n "CSI_ENABLE_METADATA":  "true"'
    configmap/rook-ceph-operator-config patched
    Copy to Clipboard
  2. 等待对应的 CSI CephFS 插件置备程序 pod 和 CSI RBD 插件 pod 变为 Running 状态。

    注意

    确保启用元数据功能后会自动设置 setmetadata 变量。当禁用元数据功能时,此变量不可用。

    $ oc get pods | grep csi
    
    csi-cephfsplugin-b8d6c                         2/2     Running     0          56m
    csi-cephfsplugin-bnbg9                         2/2     Running     0          56m
    csi-cephfsplugin-kqdw4                         2/2     Running     0          56m
    csi-cephfsplugin-provisioner-7dcd78bb9b-q6dxb  5/5     Running     0          56m
    csi-cephfsplugin-provisioner-7dcd78bb9b-zc4q5  5/5     Running     0          56m
    csi-rbdplugin-776dl                            3/3     Running     0          56m
    csi-rbdplugin-ffl52                            3/3     Running     0          56m
    csi-rbdplugin-jx9mz                            3/3     Running     0          56m
    csi-rbdplugin-provisioner-5f6d766b6c-694fx     6/6     Running     0          56m
    csi-rbdplugin-provisioner-5f6d766b6c-vzv45     6/6     Running     0          56m
    Copy to Clipboard

验证步骤

  • 验证 RBD PVC 的元数据:

    1. 创建 PVC。

      $ cat <<EOF | oc create -f -
      apiVersion: v1
      kind: PersistentVolumeClaim
      metadata:
        name: rbd-pvc
      spec:
        accessModes:
          - ReadWriteOnce
        resources:
          requests:
            storage: 1Gi
        storageClassName: ocs-storagecluster-ceph-rbd
      EOF
      Copy to Clipboard
    2. 检查 PVC 的状态。

      $ oc get pvc | grep rbd-pvc
      rbd-pvc                           Bound    pvc-30628fa8-2966-499c-832d-a6a3a8ebc594   1Gi        RWO            ocs-storagecluster-ceph-rbd   32s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      [sh-4.x]$ rbd ls ocs-storagecluster-cephblockpool
      
      csi-vol-7d67bfad-2842-11ed-94bd-0a580a830012
      csi-vol-ed5ce27b-2842-11ed-94bd-0a580a830012
      
      [sh-4.x]$ rbd image-meta ls ocs-storagecluster-cephblockpool/csi-vol-ed5ce27b-2842-11ed-94bd-0a580a830012
      Copy to Clipboard

      此镜像中有四个元数据:

      Key                               Value
      csi.ceph.com/cluster/name         6cd7a18d-7363-4830-ad5c-f7b96927f026
      csi.storage.k8s.io/pv/name        pvc-30628fa8-2966-499c-832d-a6a3a8ebc594
      csi.storage.k8s.io/pvc/name       rbd-pvc
      csi.storage.k8s.io/pvc/namespace  openshift-storage
      Copy to Clipboard
  • 验证 RBD 克隆的元数据:

    1. 创建克隆。

      $ cat <<EOF | oc create -f -
      apiVersion: v1
      kind: PersistentVolumeClaim
      metadata:
        name: rbd-pvc-clone
      spec:
        storageClassName: ocs-storagecluster-ceph-rbd
        dataSource:
          name: rbd-pvc
          kind: PersistentVolumeClaim
        accessModes:
          - ReadWriteOnce
        resources:
          requests:
            storage: 1Gi
      EOF
      Copy to Clipboard
    2. 检查克隆的状态。

      $ oc get pvc | grep rbd-pvc
      rbd-pvc                           Bound    pvc-30628fa8-2966-499c-832d-a6a3a8ebc594   1Gi        RWO            ocs-storagecluster-ceph-rbd   15m
      rbd-pvc-clone                     Bound    pvc-0d72afda-f433-4d46-a7f1-a5fcb3d766e0   1Gi        RWO            ocs-storagecluster-ceph-rbd   52s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      [sh-4.x]$ rbd ls ocs-storagecluster-cephblockpool
      csi-vol-063b982d-2845-11ed-94bd-0a580a830012
      csi-vol-063b982d-2845-11ed-94bd-0a580a830012-temp
      csi-vol-7d67bfad-2842-11ed-94bd-0a580a830012
      csi-vol-ed5ce27b-2842-11ed-94bd-0a580a830012
      
      [sh-4.x]$ rbd image-meta ls ocs-storagecluster-cephblockpool/csi-vol-063b982d-2845-11ed-94bd-0a580a830012
      There are 4 metadata on this image:
      
      Key                               Value
      csi.ceph.com/cluster/name         6cd7a18d-7363-4830-ad5c-f7b96927f026
      csi.storage.k8s.io/pv/name        pvc-0d72afda-f433-4d46-a7f1-a5fcb3d766e0
      csi.storage.k8s.io/pvc/name       rbd-pvc-clone
      csi.storage.k8s.io/pvc/namespace  openshift-storage
      Copy to Clipboard
  • 验证 RBD 快照的元数据:

    1. 创建快照。

      $ cat <<EOF | oc create -f -
      apiVersion: snapshot.storage.k8s.io/v1
      kind: VolumeSnapshot
      metadata:
        name: rbd-pvc-snapshot
      spec:
        volumeSnapshotClassName: ocs-storagecluster-rbdplugin-snapclass
        source:
          persistentVolumeClaimName: rbd-pvc
      EOF
      volumesnapshot.snapshot.storage.k8s.io/rbd-pvc-snapshot created
      Copy to Clipboard
    2. 检查快照的状态。

      $ oc get volumesnapshot
      NAME               READYTOUSE   SOURCEPVC   SOURCESNAPSHOTCONTENT   RESTORESIZE   SNAPSHOTCLASS                            SNAPSHOTCONTENT                                    CREATIONTIME   AGE
      rbd-pvc-snapshot   true         rbd-pvc                             1Gi           ocs-storagecluster-rbdplugin-snapclass   snapcontent-b992b782-7174-4101-8fe3-e6e478eb2c8f   17s            18s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      [sh-4.x]$ rbd ls ocs-storagecluster-cephblockpool
      csi-snap-a1e24408-2848-11ed-94bd-0a580a830012
      csi-vol-063b982d-2845-11ed-94bd-0a580a830012
      csi-vol-063b982d-2845-11ed-94bd-0a580a830012-temp
      csi-vol-7d67bfad-2842-11ed-94bd-0a580a830012
      csi-vol-ed5ce27b-2842-11ed-94bd-0a580a830012
      
      [sh-4.x]$ rbd image-meta ls ocs-storagecluster-cephblockpool/csi-snap-a1e24408-2848-11ed-94bd-0a580a830012
      There are 4 metadata on this image:
      
      Key                                            Value
      csi.ceph.com/cluster/name                      6cd7a18d-7363-4830-ad5c-f7b96927f026
      csi.storage.k8s.io/volumesnapshot/name         rbd-pvc-snapshot
      csi.storage.k8s.io/volumesnapshot/namespace    openshift-storage
      csi.storage.k8s.io/volumesnapshotcontent/name  snapcontent-b992b782-7174-4101-8fe3-e6e478eb2c8f
      Copy to Clipboard
  • 验证 RBD 恢复的元数据:

    1. 恢复卷快照。

      $ cat <<EOF | oc create -f -
      apiVersion: v1
      kind: PersistentVolumeClaim
      metadata:
        name: rbd-pvc-restore
      spec:
        storageClassName: ocs-storagecluster-ceph-rbd
        dataSource:
          name: rbd-pvc-snapshot
          kind: VolumeSnapshot
          apiGroup: snapshot.storage.k8s.io
        accessModes:
          - ReadWriteOnce
        resources:
          requests:
            storage: 1Gi
      EOF
      persistentvolumeclaim/rbd-pvc-restore created
      Copy to Clipboard
    2. 检查恢复的卷快照的状态。

      $ oc get pvc | grep rbd
      db-noobaa-db-pg-0                 Bound    pvc-615e2027-78cd-4ea2-a341-fdedd50c5208   50Gi       RWO            ocs-storagecluster-ceph-rbd   51m
      rbd-pvc                           Bound    pvc-30628fa8-2966-499c-832d-a6a3a8ebc594   1Gi        RWO            ocs-storagecluster-ceph-rbd   47m
      rbd-pvc-clone                     Bound    pvc-0d72afda-f433-4d46-a7f1-a5fcb3d766e0   1Gi        RWO            ocs-storagecluster-ceph-rbd   32m
      rbd-pvc-restore                   Bound    pvc-f900e19b-3924-485c-bb47-01b84c559034   1Gi        RWO            ocs-storagecluster-ceph-rbd   111s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      [sh-4.x]$ rbd ls ocs-storagecluster-cephblockpool
      csi-snap-a1e24408-2848-11ed-94bd-0a580a830012
      csi-vol-063b982d-2845-11ed-94bd-0a580a830012
      csi-vol-063b982d-2845-11ed-94bd-0a580a830012-temp
      csi-vol-5f6e0737-2849-11ed-94bd-0a580a830012
      csi-vol-7d67bfad-2842-11ed-94bd-0a580a830012
      csi-vol-ed5ce27b-2842-11ed-94bd-0a580a830012
      
      [sh-4.x]$ rbd image-meta ls ocs-storagecluster-cephblockpool/csi-vol-5f6e0737-2849-11ed-94bd-0a580a830012
      There are 4 metadata on this image:
      
      Key                               Value
      csi.ceph.com/cluster/name         6cd7a18d-7363-4830-ad5c-f7b96927f026
      csi.storage.k8s.io/pv/name        pvc-f900e19b-3924-485c-bb47-01b84c559034
      csi.storage.k8s.io/pvc/name       rbd-pvc-restore
      csi.storage.k8s.io/pvc/namespace  openshift-storage
      Copy to Clipboard
  • 验证 CephFS PVC 的元数据:

    1. 创建 PVC。

      cat <<EOF | oc create -f -
      apiVersion: v1
      kind: PersistentVolumeClaim
      metadata:
        name: cephfs-pvc
      spec:
        accessModes:
          - ReadWriteOnce
        resources:
          requests:
            storage: 1Gi
        storageClassName: ocs-storagecluster-cephfs
      EOF
      Copy to Clipboard
    2. 检查 PVC 的状态。

      oc get pvc | grep cephfs
      cephfs-pvc                        Bound    pvc-4151128c-86f0-468b-b6e7-5fdfb51ba1b9   1Gi        RWO            ocs-storagecluster-cephfs     11s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      $ ceph fs volume ls
      [
          {
              "name": "ocs-storagecluster-cephfilesystem"
          }
      ]
      
      $ ceph fs subvolumegroup ls ocs-storagecluster-cephfilesystem
      [
          {
              "name": "csi"
          }
      ]
      
      $ ceph fs subvolume ls ocs-storagecluster-cephfilesystem --group_name csi
      [
          {
              "name": "csi-vol-25266061-284c-11ed-95e0-0a580a810215"
          }
      ]
      
      $ ceph fs subvolume metadata ls ocs-storagecluster-cephfilesystem csi-vol-25266061-284c-11ed-95e0-0a580a810215 --group_name=csi --format=json
      
      {
          "csi.ceph.com/cluster/name": "6cd7a18d-7363-4830-ad5c-f7b96927f026",
          "csi.storage.k8s.io/pv/name": "pvc-4151128c-86f0-468b-b6e7-5fdfb51ba1b9",
          "csi.storage.k8s.io/pvc/name": "cephfs-pvc",
          "csi.storage.k8s.io/pvc/namespace": "openshift-storage"
      }
      Copy to Clipboard
  • 验证 CephFS 克隆的元数据:

    1. 创建克隆。

      $ cat <<EOF | oc create -f -
      apiVersion: v1
      kind: PersistentVolumeClaim
      metadata:
        name: cephfs-pvc-clone
      spec:
        storageClassName: ocs-storagecluster-cephfs
        dataSource:
          name: cephfs-pvc
          kind: PersistentVolumeClaim
        accessModes:
          - ReadWriteMany
        resources:
          requests:
            storage: 1Gi
      EOF
      persistentvolumeclaim/cephfs-pvc-clone created
      Copy to Clipboard
    2. 检查克隆的状态。

      $ oc get pvc | grep cephfs
      cephfs-pvc                        Bound    pvc-4151128c-86f0-468b-b6e7-5fdfb51ba1b9   1Gi        RWO            ocs-storagecluster-cephfs     9m5s
      cephfs-pvc-clone                  Bound    pvc-3d4c4e78-f7d5-456a-aa6e-4da4a05ca4ce   1Gi        RWX            ocs-storagecluster-cephfs     20s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      [rook@rook-ceph-tools-c99fd8dfc-6sdbg /]$ ceph fs subvolume ls ocs-storagecluster-cephfilesystem --group_name csi
      [
          {
              "name": "csi-vol-5ea23eb0-284d-11ed-95e0-0a580a810215"
          },
          {
              "name": "csi-vol-25266061-284c-11ed-95e0-0a580a810215"
          }
      ]
      
      [rook@rook-ceph-tools-c99fd8dfc-6sdbg /]$ ceph fs subvolume metadata ls ocs-storagecluster-cephfilesystem csi-vol-5ea23eb0-284d-11ed-95e0-0a580a810215 --group_name=csi --format=json
      
      {
          "csi.ceph.com/cluster/name": "6cd7a18d-7363-4830-ad5c-f7b96927f026",
          "csi.storage.k8s.io/pv/name": "pvc-3d4c4e78-f7d5-456a-aa6e-4da4a05ca4ce",
          "csi.storage.k8s.io/pvc/name": "cephfs-pvc-clone",
          "csi.storage.k8s.io/pvc/namespace": "openshift-storage"
      }
      Copy to Clipboard
  • 验证 CephFS 卷快照的元数据:

    1. 创建卷快照。

      $ cat <<EOF | oc create -f -
      apiVersion: snapshot.storage.k8s.io/v1
      kind: VolumeSnapshot
      metadata:
        name: cephfs-pvc-snapshot
      spec:
        volumeSnapshotClassName: ocs-storagecluster-cephfsplugin-snapclass
        source:
          persistentVolumeClaimName: cephfs-pvc
      EOF
      volumesnapshot.snapshot.storage.k8s.io/cephfs-pvc-snapshot created
      Copy to Clipboard
    2. 检查卷快照的状态。

      $ oc get volumesnapshot
      NAME                  READYTOUSE   SOURCEPVC    SOURCESNAPSHOTCONTENT   RESTORESIZE   SNAPSHOTCLASS                               SNAPSHOTCONTENT                                    CREATIONTIME   AGE
      cephfs-pvc-snapshot   true         cephfs-pvc                           1Gi           ocs-storagecluster-cephfsplugin-snapclass   snapcontent-f0f17463-d13b-4e13-b44e-6340bbb3bee0   9s             9s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      $ ceph fs subvolume snapshot ls ocs-storagecluster-cephfilesystem csi-vol-25266061-284c-11ed-95e0-0a580a810215 --group_name csi
      [
          {
              "name": "csi-snap-06336f4e-284e-11ed-95e0-0a580a810215"
          }
      ]
      
      $ ceph fs subvolume snapshot metadata ls ocs-storagecluster-cephfilesystem csi-vol-25266061-284c-11ed-95e0-0a580a810215 csi-snap-06336f4e-284e-11ed-95e0-0a580a810215 --group_name=csi --format=json
      
      {
          "csi.ceph.com/cluster/name": "6cd7a18d-7363-4830-ad5c-f7b96927f026",
          "csi.storage.k8s.io/volumesnapshot/name": "cephfs-pvc-snapshot",
          "csi.storage.k8s.io/volumesnapshot/namespace": "openshift-storage",
          "csi.storage.k8s.io/volumesnapshotcontent/name": "snapcontent-f0f17463-d13b-4e13-b44e-6340bbb3bee0"
      }
      Copy to Clipboard
  • 验证 CephFS 恢复的元数据:

    1. 恢复卷快照。

      $ cat <<EOF | oc create -f -
      apiVersion: v1
      kind: PersistentVolumeClaim
      metadata:
        name: cephfs-pvc-restore
      spec:
        storageClassName: ocs-storagecluster-cephfs
        dataSource:
          name: cephfs-pvc-snapshot
          kind: VolumeSnapshot
          apiGroup: snapshot.storage.k8s.io
        accessModes:
          - ReadWriteMany
        resources:
          requests:
            storage: 1Gi
      EOF
      persistentvolumeclaim/cephfs-pvc-restore created
      Copy to Clipboard
    2. 检查恢复的卷快照的状态。

      $ oc get pvc | grep cephfs
      cephfs-pvc                        Bound    pvc-4151128c-86f0-468b-b6e7-5fdfb51ba1b9   1Gi        RWO            ocs-storagecluster-cephfs     29m
      cephfs-pvc-clone                  Bound    pvc-3d4c4e78-f7d5-456a-aa6e-4da4a05ca4ce   1Gi        RWX            ocs-storagecluster-cephfs     20m
      cephfs-pvc-restore                Bound    pvc-43d55ea1-95c0-42c8-8616-4ee70b504445   1Gi        RWX            ocs-storagecluster-cephfs     21s
      Copy to Clipboard
    3. 验证 Red Hat Ceph Storage 命令行界面 (CLI) 中的元数据。

      有关如何访问 Red Hat Ceph Storage CLI 的详情,请参考如何在 Red Hat OpenShift Data Foundation 环境中访问 Red Hat Ceph Storage CLI

      $ ceph fs subvolume ls ocs-storagecluster-cephfilesystem --group_name csi
      [
          {
              "name": "csi-vol-3536db13-2850-11ed-95e0-0a580a810215"
          },
          {
              "name": "csi-vol-5ea23eb0-284d-11ed-95e0-0a580a810215"
          },
          {
              "name": "csi-vol-25266061-284c-11ed-95e0-0a580a810215"
          }
      ]
      
      $ ceph fs subvolume metadata ls ocs-storagecluster-cephfilesystem csi-vol-3536db13-2850-11ed-95e0-0a580a810215 --group_name=csi --format=json
      
      {
          "csi.ceph.com/cluster/name": "6cd7a18d-7363-4830-ad5c-f7b96927f026",
          "csi.storage.k8s.io/pv/name": "pvc-43d55ea1-95c0-42c8-8616-4ee70b504445",
          "csi.storage.k8s.io/pvc/name": "cephfs-pvc-restore",
          "csi.storage.k8s.io/pvc/namespace": "openshift-storage"
      }
      Copy to Clipboard

第 4 章 警报

4.1. 设置警报

对于内部模式集群,Block 和 File 以及对象仪表板中会显示与存储指标服务、存储集群、磁盘设备、集群健康状况、集群容量等相关的各种警报。这些警报不适用于外部模式。

注意

在警报面板中显示警报可能需要几分钟时间,因为仅触发警报在此面板中可见。

您还可以查看其他详情的警报,并自定义 OpenShift Container Platform 中的 Alerts 显示。

如需更多信息,请参阅管理警报

第 5 章 远程健康监控

OpenShift Data Foundation 会收集有关集群健康、使用情况和集群大小的匿名聚合信息,并通过一个名为 Telemetry 的集成组件向红帽报告。通过这些信息,红帽可以改进 OpenShift Data Foundation,并更快地对影响客户的问题做出反应。

通过 Telemetry 向红帽报告数据的集群被视为连接的集群

5.1. 关于 Telemetry

Telemetry 会向红帽发送一组精选的集群监控指标子集。这些指标会持续发送并描述:

  • OpenShift Data Foundation 集群的大小
  • OpenShift Data Foundation 组件的健康和状态
  • 正在进行的任何升级的健康和状态
  • 有关 OpenShift Data Foundation 组件和功能的有限使用情况信息
  • 有关集群监控组件所报告的警报的摘要信息

红帽将使用这一持续数据流实时监控集群的健康,必要时将对影响客户的问题做出反应。同时还有助于红帽向客户推出 OpenShift Data Foundation 升级,以便最大程度降低服务影响,持续改进升级体验。

这类调试信息将提供给红帽支持和工程团队,其访问限制等同于访问通过问题单报告的数据。红帽利用所有连接集群信息来帮助改进 OpenShift Data Foundation,提高其易用性。所有这些信息都不会与第三方共享。

5.2. Telemetry 收集的信息

Telemetry 收集的主要信息包括:

  • 以字节为单位的 Ceph 集群大小 : "ceph_cluster_total_bytes",
  • 以字节为单位使用的 Ceph 集群存储量 : "ceph_cluster_total_used_raw_bytes",
  • Ceph 集群健康状态 : "ceph_health_status",
  • 对象存储设备 (OSD) 的总数:" job:ceph_osd_metadata:count",
  • Red Hat OpenShift Container Platform 集群中存在的 OpenShift Data Foundation 持久性卷 (PV) 的总数量:"job:kube_pv:count",
  • Ceph 集群中的所有池的每秒输入/输出操作总数 (IOPS)(reads+writes) 值:"job:ceph_pools_iops:total"
  • Ceph 集群中所有池的总 IOPS (reads+writes) 值 "job:ceph_pools_iops_bytes:total",
  • 运行的 Ceph 集群版本总数: "job:ceph_versions_running:count"
  • 不健康的 NooBaa bucket 的总数: "job:noobaa_total_unhealthy_buckets:sum",
  • NooBaa bucket 总数:"job:noobaa_bucket_count:sum",
  • NooBaa 对象的总数:"job:noobaa_total_object_count:sum",
  • NooBaa 帐户数 :"noobaa_accounts_num",
  • NooBaa 的内存使用总量,以字节为单位:"noobaa_total_usage",
  • PVC 从特定存储置备程序请求的存储总量(以字节为单位): "cluster:kube_persistentvolumeclaim_resource_requests_storage_bytes:provisioner:sum",
  • PVC 使用的存储总量(以字节为单位) :"cluster:kubelet_volume_stats_used_bytes:provisioner:sum"

Telemetry 不会收集任何身份识别的信息,如用户名、密码、用户资源的名称或地址。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat