第 7 章 对 OpenShift Data Foundation 中的警报和错误进行故障排除


7.1. 解决警报和错误

Red Hat OpenShift Data Foundation 可以检测并自动解决许多常见的故障情形。但是,有些问题需要管理员介入。

要了解当前触发的错误,请查看以下位置之一:

  • Observe Alerting Firing 选项
  • Home Overview Cluster 标签页
  • Storage Data Foundation Storage System storage system 链接,在弹出的 Overview Block and File 标签页
  • Storage Data Foundation Storage System Storage system 链接,在弹出 Overview Object 标签页

复制显示的错误并在以下部分搜索它以了解其严重性和解决方案:

Expand

Name: CephMonVersionMismatch

Message: 运行多个存储服务版本。

Description{{ $value }} 运行的 Ceph Mon 组件的不同版本。

严重性: 警告

解决方案 :修复

流程 :检查用户界面和日志,并验证更新是否进行中。

  • 如果更新正在进行,则此警报是临时的。
  • 如果更新没有进行,重启升级过程。

名称:CephOSDVersionMismatch

Message: 运行多个存储服务版本。

Description{{ $value }} 运行的 Ceph OSD 组件的不同版本。

严重性: 警告

解决方案 :修复

流程 :检查用户界面和日志,并验证更新是否进行中。

  • 如果更新正在进行,则此警报是临时的。
  • 如果更新没有进行,重启升级过程。

名称CephClusterCriticallyFull

消息存储集群几乎已满,需要立即扩展

描述存储集群利用率已超过 85%。

严重性: 关键

解决方案 :修复

流程 :删除不必要的数据或扩展集群。

名称CephClusterNearFull

修复了:Storage 集群已接近满。需要进行扩展。

描述存储集群利用率已超过 75%

严重性: 警告

解决方案 :修复

流程 :删除不必要的数据或扩展集群。

Name:NooBaaBucketErrorState

Message:A NooBaa Bucket Is In Error State

Description : NooBaa bucket {{ $labels.bucket_name }} 处于错误状态,超过 6m

严重性: 警告

解决方案 :临时解决方案

流程查找不健康的存储桶的错误代码

名称:NooBaaNamespaceResourceErrorState

Message:A NooBaa Namespace Resource Is In Error State

描述 : NooBaa 命名空间资源 {{ $labels.namespace_resource_name }} 处于错误状态,表示 5m 的错误状态

严重性: 警告

解决方案 :修复

流程查找不健康命名空间存储资源的错误代码

Name:NooBaNamespaceBucketErrorState

Message:A NooBaa Namespace Bucket Is In Error State

Description : NooBaa 命名空间存储桶 {{ $labels.bucket_name }} 处于错误状态,超过 5m

严重性: 警告

解决方案 :修复

流程查找不健康的存储桶的错误代码

Name:CephMdsMissingReplicas

Message :用于存储元数据服务的不计副本。

Description: `Minimum required replicas for storage metadata service not available.

可能会影响存储集群的工作。

严重性: 警告

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请联系红帽支持团队

名称CephMgrIsAbsent

Message:Storage 指标收集器服务不再可用。

描述 : Ceph Manager 从 Prometheus 目标发现中消失。

严重级别: Critical

解决方案请联系红帽支持

流程

  1. 检查用户界面并记录,并验证更新是否正在进行。

    • 如果更新正在进行,则此警报是临时的。
    • 如果更新没有进行,重启升级过程。
  2. 升级完成后,检查警报和 Operator 状态。
  3. 如果问题仍然存在或无法识别,请联系红帽支持

名称CephNodeDown

Message: Storage node {{ $labels.node }} 停机

描述:Storage node {{ $labels.node }} 停机。立即检查节点。

严重级别: Critical

解决方案请联系红帽支持

流程

  1. 检查哪个节点停止正常运行,并检查其原因。
  2. 采取适当的操作来恢复节点。如果无法恢复节点:

名称CephClusterErrorState

消息:Storage cluster is in error state

Description存储集群处于错误状态超过 10m。

严重级别: Critical

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请使用 must-gather 下载日志文件和诊断信息
  3. 红帽支持创建一个支持问题单,并附加 must-gather 的输出。

名称CephClusterWarningState

Message:Storage cluster 处于 degraded 状态

描述:Storage cluster 处于 warning 状态,表示 10m 以上的警告状态。

严重性: 警告

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请使用 must-gather 下载日志文件和诊断信息
  3. 红帽支持创建一个支持问题单,并附加 must-gather 的输出。

名称CephDataRecoveryTakingTooLong

Message: Data recovery is slow

描述数据恢复时间过长。

严重性: 警告

解决方案请联系红帽支持

名称CephOSDDiskNotResponding

Message:Disk not respond

描述 : 磁盘设备 {{ $labels.device }} 未响应,在主机 {{ $labels.host }} 上。

严重级别: Critical

解决方案请联系红帽支持

名称CephOSDDiskUnavailable

Message:Disk not access

描述: 磁盘设备 {{ $labels.device }} 无法在主机 {{ $labels.host }} 上访问。

严重级别: Critical

解决方案请联系红帽支持

名称CephPGRepairTakingTooLong

Message:检测到的自助修复问题

描述执行自助服务修复操作用时过长。

严重性: 警告

解决方案请联系红帽支持

Name:CephMonHighNumberOfLeaderChanges

Message:Storage Cluster 最近看到很多领导变化。

描述:'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} 已看到 {{ $value printf "%.2f" }} leader 每分钟更改。'

严重性: 警告

解决方案请联系红帽支持

名称CephMonQuorumAtRisk

消息存储仲裁的风险

描述存储群集仲裁较低。

严重级别: Critical

解决方案请联系红帽支持

名称ClusterObjectStoreState

Message:Cluster Object Store is in unhealthy state.检查 Ceph 集群健康状态

描述:Cluster Object Store is in unhealthy state for more than 15s.检查 Ceph 集群健康状态

严重级别: Critical

解决方案请联系红帽支持

流程

名称CephOSDFlapping

Message: Storage daemon osd.x has restarted 5 times in the last 5 minutes.检查 pod 事件或 Ceph 状态以查找 cause

描述Storage OSD 在 5 分钟内重新启动超过 5 次

严重级别: Critical

解决方案请联系红帽支持

名称OdfPoolMirroringImageHealth

Message:Mirroring image(PV)位于池 <pool-name> 中,超过 1m。Mirroring might not work as expected.

描述 :对一个或多个应用程序失败。

严重性: 警告

解决方案请联系红帽支持

名称OdfMirrorDaemonStatus

消息Mirror 守护进程不健康

描述 :对整个集群进行灾难恢复失败。Mirror daemon is in unhealthy status for more than 1m.Mirroring on this cluster is not working as expected.

严重级别: Critical

解决方案请联系红帽支持

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat