第 7 章 对 OpenShift Data Foundation 中的警报和错误进行故障排除


7.1. 解决警报和错误

Red Hat OpenShift Data Foundation 可以检测并自动解决许多常见的故障情况。但是,有些问题需要管理员干预。

要了解当前触发的错误,请查看以下位置之一:

  • observe Alerting Firing 选项
  • Home Overview Cluster 标签页
  • Storage Data Foundation Storage System storage system link in the pop up Overview Block and File 标签页
  • Storage Data Foundation Storage System storage system link in the pop up Overview Object 标签页

复制显示的错误并在以下部分搜索它以了解其严重性和解决方案:

Expand

名称 :CephMonVersionMismatch

Message : 运行多个存储服务版本。

Description :{{ $value }} 运行的 Ceph Mon 组件的不同版本。

严重性: 警告

解决方案 :修复

流程 :检查用户界面和日志,并验证更新是否正在进行中。

  • 如果更新正在进行,则此警报是临时的。
  • 如果更新没有进行,重启升级过程。

名称:CephOSDVersionMismatch

Message : 运行多个存储服务版本。

Description :{{ $value }} 运行的 Ceph OSD 组件的不同版本。

严重性: 警告

解决方案 :修复

流程 :检查用户界面和日志,并验证更新是否正在进行中。

  • 如果更新正在进行,则此警报是临时的。
  • 如果更新没有进行,重启升级过程。

名称CephClusterCriticallyFull

消息存储集群非常满,需要立即扩展

描述存储集群利用率已超过 85%。

严重性: 关键

解决方案 :修复

流程 :删除不必要的数据或扩展集群。

名称CephClusterNearFull

修复了:Storage 集群已接近满。需要扩展。

描述存储集群利用率已超过 75%

严重性: 警告

解决方案 :修复

流程 :删除不必要的数据或扩展集群。

Name:NooBaaBucketErrorState

Message : NooBaa Bucket Is In Error State

描述 : NooBaa bucket {{ $labels.bucket_name }} 处于错误状态,超过 6m

严重性: 警告

解决方案 :临时解决方案

流程查找不健康的存储桶的错误代码

Name:NooBaaNamespaceResourceErrorState

Message : NooBaa Namespace Resource Is In Error State

Description : NooBaa namespace resource {{ $labels.namespace_resource_name }} is in error state for more than 5m

严重性: 警告

解决方案 :修复

流程查找不健康命名空间存储资源的错误代码

Name:NooBaaNamespaceBucketErrorState

Message:A NooBaa Namespace Bucket Is In Error State

描述 : NooBaa 命名空间存储桶 {{ $labels.bucket_name }} 处于错误状态,超过 5m

严重性: 警告

解决方案 :修复

流程查找不健康的存储桶的错误代码

Name:CephMdsMissingReplicas

Message : 存储元数据服务的不计副本。

描述: 'Minimum required replicas for storage metadata service not available.

可能会影响存储集群的工作。

严重性: 警告

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请联系红帽支持团队

名称CephMgrIsAbsent

Message:Storage metrics collector 服务不再可用。

描述:Ceph Manager 已从 Prometheus 目标发现中消失。

严重性级别: Critical

解决方案请联系红帽支持

流程

  1. 检查用户界面并记录,并验证更新是否正在进行中。

    • 如果更新正在进行,则此警报是临时的。
    • 如果更新没有进行,重启升级过程。
  2. 升级完成后,检查警报和 Operator 状态。
  3. 如果问题仍然存在或无法识别,请联系红帽支持

名称 :CephNodeDown

Message:Storage node {{ $labels.node }} went down

描述:Storage node {{ $labels.node }} 停机。立即检查节点。

严重性级别: Critical

解决方案请联系红帽支持

流程

  1. 检查哪个节点停止正常运行及其原因。
  2. 采取适当的操作来恢复节点。如果无法恢复节点:

名称CephClusterErrorState

Message:Storage cluster is in error state

描述:Storage cluster is in error state for more than 10m.

严重性级别: Critical

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请使用 must-gather 下载日志文件和诊断信息
  3. 通过 附加 must-gather 的输出来创建一个 红帽支持的 支持问题单

名称CephClusterWarningState

Message:Storage cluster 处于 degraded 状态

Description:Storage cluster is in warning state for more than 10m.

严重性: 警告

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请使用 must-gather 下载日志文件和诊断信息
  3. 通过 附加 must-gather 的输出来创建一个 红帽支持的 支持问题单

名称CephDataRecoveryTakingTooLong

Message:Data recovery is slow

描述 :数据恢复时间过长。

严重性: 警告

解决方案请联系红帽支持

名称CephOSDDiskNotResponding

Message:Disk not responding

描述 : 磁盘设备 {{ $labels.device }} 没有响应,在主机 {{ $labels.host }} 上。

严重性级别: Critical

解决方案请联系红帽支持

名称CephOSDDiskUnavailable

Message:Disk not accessible

描述 : 磁盘设备 {{ $labels.device }} 无法在主机 {{ $labels.host }} 上访问。

严重性级别: Critical

解决方案请联系红帽支持

名称CephPGRepairTakingTooLong

Message:检测到的自助修复问题

描述自助修复操作用时过长。

严重性: 警告

解决方案请联系红帽支持

名称CephMonHighNumberOfLeaderChanges

Message:Storage Cluster 最近看到很多领导变化。

描述:'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} has seen {{ $value printf "%.2f" }} leader changes per minute recently.'

严重性: 警告

解决方案请联系红帽支持

名称CephMonQuorumAtRisk

消息存储仲裁的风险

描述:Storage cluster quorum is low.

严重性级别: Critical

解决方案请联系红帽支持

名称ClusterObjectStoreState

Message:Cluster Object Store is in unhealthy state.检查 Ceph 集群健康状态

描述:Cluster Object Store is in unhealthy state for more than 15s.检查 Ceph 集群健康状态

严重性级别: Critical

解决方案请联系红帽支持

流程

名称CephOSDFlapping

Message:Storage daemon osd.x has restarted 5 times in the last 5 minutes.检查 pod 事件或 Ceph 状态以查找 cause

描述:Storage OSD 在 5 分钟内重新启动超过 5 次

严重性级别: Critical

解决方案请联系红帽支持

名称OdfPoolMirroringImageHealth

消息:Mirroring image (PV) in the pool <pool-name> are in Warning state for more than a 1m.镜像可能无法按预期工作。

描述 :对一个或多个应用程序失败。

严重性: 警告

解决方案请联系红帽支持

名称OdfMirrorDaemonStatus

Message:Mirror daemon is unhealthy.

描述 :对整个集群进行灾难恢复失败。Mirror daemon is in unhealthy status for more than 1m.对这个集群进行镜像(mirror)无法正常工作。

严重性级别: Critical

解决方案请联系红帽支持

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat