第 7 章对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误
复制链接

Red Hat OpenShift Data Foundation 可以检测并自动解决许多常见的故障情况。但是，有些问题需要管理员干预。

要了解当前触发的错误，请查看以下位置之一：

observe Alerting Firing 选项
Home Overview Cluster 标签页
Storage Data Foundation Storage System storage system link in the pop up Overview Block and File 标签页
Storage Data Foundation Storage System storage system link in the pop up Overview Object 标签页

复制显示的错误并在以下部分搜索它以了解其严重性和解决方案：

Expand

名称：CephMonVersionMismatch

Message : 运行多个存储服务版本。

Description ：{{ $value }} 运行的 Ceph Mon 组件的不同版本。

严重性: 警告

解决方案 ：修复

流程：检查用户界面和日志，并验证更新是否正在进行中。

如果更新正在进行，则此警报是临时的。
如果更新没有进行，重启升级过程。

名称:CephOSDVersionMismatch

Message : 运行多个存储服务版本。

Description ：{{ $value }} 运行的 Ceph OSD 组件的不同版本。

严重性: 警告

解决方案 ：修复

流程：检查用户界面和日志，并验证更新是否正在进行中。

如果更新正在进行，则此警报是临时的。
如果更新没有进行，重启升级过程。

名称：CephClusterCriticallyFull

消息：存储集群非常满，需要立即扩展

描述：存储集群利用率已超过 85%。

严重性: 关键

解决方案 ：修复

流程：删除不必要的数据或扩展集群。

名称：CephClusterNearFull

修复了:Storage 集群已接近满。需要扩展。

描述：存储集群利用率已超过 75%

严重性: 警告

解决方案 ：修复

流程：删除不必要的数据或扩展集群。

Name:NooBaaBucketErrorState

Message : NooBaa Bucket Is In Error State

描述 : NooBaa bucket {{ $labels.bucket_name }} 处于错误状态，超过 6m

严重性: 警告

解决方案 ：临时解决方案

流程：查找不健康的存储桶的错误代码

Name:NooBaaNamespaceResourceErrorState

Message : NooBaa Namespace Resource Is In Error State

Description : NooBaa namespace resource {{ $labels.namespace_resource_name }} is in error state for more than 5m

严重性: 警告

解决方案 ：修复

流程：查找不健康命名空间存储资源的错误代码

Name:NooBaaNamespaceBucketErrorState

Message:A NooBaa Namespace Bucket Is In Error State

描述 : NooBaa 命名空间存储桶 {{ $labels.bucket_name }} 处于错误状态，超过 5m

严重性: 警告

解决方案 ：修复

流程：查找不健康的存储桶的错误代码

Name:CephMdsMissingReplicas

Message : 存储元数据服务的不计副本。

描述: 'Minimum required replicas for storage metadata service not available.

可能会影响存储集群的工作。

严重性: 警告

解决方案 ：请联系红帽支持

流程：

检查警报和操作器状态。
如果无法识别该问题，请联系红帽支持团队。

名称：CephMgrIsAbsent

Message:Storage metrics collector 服务不再可用。

描述:Ceph Manager 已从 Prometheus 目标发现中消失。

严重性级别: Critical

解决方案 ：请联系红帽支持

流程：

检查用户界面并记录，并验证更新是否正在进行中。
- 如果更新正在进行，则此警报是临时的。
- 如果更新没有进行，重启升级过程。
升级完成后，检查警报和 Operator 状态。
如果问题仍然存在或无法识别，请联系红帽支持。

名称：CephNodeDown

Message:Storage node {{ $labels.node }} went down

描述:Storage node {{ $labels.node }} 停机。立即检查节点。

严重性级别: Critical

解决方案 ：请联系红帽支持

流程：

检查哪个节点停止正常运行及其原因。
采取适当的操作来恢复节点。如果无法恢复节点：
- 请参阅为 Red Hat OpenShift Data Foundation 替换存储节点
- 联系红帽支持。

名称：CephClusterErrorState

Message:Storage cluster is in error state

描述:Storage cluster is in error state for more than 10m.

严重性级别: Critical

解决方案 ：请联系红帽支持

流程：

检查警报和操作器状态。
如果无法识别该问题，请使用 must-gather 下载日志文件和诊断信息。
通过附加 must-gather 的输出来创建一个红帽支持的支持问题单。

名称：CephClusterWarningState

Message:Storage cluster 处于 degraded 状态

Description:Storage cluster is in warning state for more than 10m.

严重性: 警告

解决方案 ：请联系红帽支持

流程：

检查警报和操作器状态。
如果无法识别该问题，请使用 must-gather 下载日志文件和诊断信息。
通过附加 must-gather 的输出来创建一个红帽支持的支持问题单。

名称：CephDataRecoveryTakingTooLong

Message:Data recovery is slow

描述 ：数据恢复时间过长。

严重性: 警告

解决方案 ：请联系红帽支持

名称：CephOSDDiskNotResponding

Message:Disk not responding

描述 : 磁盘设备 {{ $labels.device }} 没有响应，在主机 {{ $labels.host }} 上。

严重性级别: Critical

解决方案 ：请联系红帽支持

名称：CephOSDDiskUnavailable

Message:Disk not accessible

描述 : 磁盘设备 {{ $labels.device }} 无法在主机 {{ $labels.host }} 上访问。

严重性级别: Critical

解决方案 ：请联系红帽支持

名称：CephPGRepairTakingTooLong

Message:检测到的自助修复问题

描述：自助修复操作用时过长。

严重性: 警告

解决方案 ：请联系红帽支持

名称：CephMonHighNumberOfLeaderChanges

Message:Storage Cluster 最近看到很多领导变化。

描述:'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} has seen {{ $value printf "%.2f" }} leader changes per minute recently.'

严重性: 警告

解决方案 ：请联系红帽支持

名称：CephMonQuorumAtRisk

消息：存储仲裁的风险

描述:Storage cluster quorum is low.

严重性级别: Critical

解决方案 ：请联系红帽支持

名称：ClusterObjectStoreState

Message:Cluster Object Store is in unhealthy state.检查 Ceph 集群健康状态。

描述:Cluster Object Store is in unhealthy state for more than 15s.检查 Ceph 集群健康状态。

严重性级别: Critical

解决方案 ：请联系红帽支持

流程：

检查 CephObjectStore CR 实例。
联系红帽支持。

名称：CephOSDFlapping

Message:Storage daemon osd.x has restarted 5 times in the last 5 minutes.检查 pod 事件或 Ceph 状态以查找 cause。

描述:Storage OSD 在 5 分钟内重新启动超过 5 次。

严重性级别: Critical

解决方案 ：请联系红帽支持

名称：OdfPoolMirroringImageHealth

消息:Mirroring image (PV) in the pool <pool-name> are in Warning state for more than a 1m.镜像可能无法按预期工作。

描述：对一个或多个应用程序失败。

严重性: 警告

解决方案 ：请联系红帽支持

名称：OdfMirrorDaemonStatus

Message:Mirror daemon is unhealthy.

描述：对整个集群进行灾难恢复失败。Mirror daemon is in unhealthy status for more than 1m.对这个集群进行镜像(mirror)无法正常工作。

严重性级别: Critical

解决方案 ：请联系红帽支持

第 7 章对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 7 章 对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 7 章对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误
复制链接