第 7 章对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误
复制链接

Red Hat OpenShift Data Foundation 可以检测并自动解决许多常见的故障情形。但是，有些问题需要管理员介入。

要了解当前触发的错误，请查看以下位置之一：

Observe Alerting Firing 选项
Home Overview Cluster 标签页
Storage Data Foundation Storage System storage system 链接，在弹出的 Overview Block and File 标签页
Storage Data Foundation Storage System Storage system 链接，在弹出 Overview Object 标签页

复制显示的错误并在以下部分搜索它以了解其严重性和解决方案：

Expand

Name: CephMonVersionMismatch

Message: 运行多个存储服务版本。

Description：{{ $value }} 运行的 Ceph Mon 组件的不同版本。

严重性: 警告

解决方案 ：修复

流程：检查用户界面和日志，并验证更新是否进行中。

如果更新正在进行，则此警报是临时的。
如果更新没有进行，重启升级过程。

名称:CephOSDVersionMismatch

Message: 运行多个存储服务版本。

Description：{{ $value }} 运行的 Ceph OSD 组件的不同版本。

严重性: 警告

解决方案 ：修复

流程：检查用户界面和日志，并验证更新是否进行中。

如果更新正在进行，则此警报是临时的。
如果更新没有进行，重启升级过程。

名称：CephClusterCriticallyFull

消息：存储集群几乎已满，需要立即扩展

描述：存储集群利用率已超过 85%。

严重性: 关键

解决方案 ：修复

流程：删除不必要的数据或扩展集群。

名称：CephClusterNearFull

修复了:Storage 集群已接近满。需要进行扩展。

描述：存储集群利用率已超过 75%

严重性: 警告

解决方案 ：修复

流程：删除不必要的数据或扩展集群。

Name:NooBaaBucketErrorState

Message:A NooBaa Bucket Is In Error State

Description : NooBaa bucket {{ $labels.bucket_name }} 处于错误状态，超过 6m

严重性: 警告

解决方案 ：临时解决方案

流程：查找不健康的存储桶的错误代码

名称:NooBaaNamespaceResourceErrorState

Message:A NooBaa Namespace Resource Is In Error State

描述 : NooBaa 命名空间资源 {{ $labels.namespace_resource_name }} 处于错误状态，表示 5m 的错误状态

严重性: 警告

解决方案 ：修复

流程：查找不健康命名空间存储资源的错误代码

Name:NooBaNamespaceBucketErrorState

Message:A NooBaa Namespace Bucket Is In Error State

Description : NooBaa 命名空间存储桶 {{ $labels.bucket_name }} 处于错误状态，超过 5m

严重性: 警告

解决方案 ：修复

流程：查找不健康的存储桶的错误代码

Name:CephMdsMissingReplicas

Message ：用于存储元数据服务的不计副本。

Description: `Minimum required replicas for storage metadata service not available.

可能会影响存储集群的工作。

严重性: 警告

解决方案 ：请联系红帽支持

流程：

检查警报和操作器状态。
如果无法识别该问题，请联系红帽支持团队。

名称：CephMgrIsAbsent

Message:Storage 指标收集器服务不再可用。

描述 : Ceph Manager 从 Prometheus 目标发现中消失。

严重级别: Critical

解决方案 ：请联系红帽支持

流程：

检查用户界面并记录，并验证更新是否正在进行。
- 如果更新正在进行，则此警报是临时的。
- 如果更新没有进行，重启升级过程。
升级完成后，检查警报和 Operator 状态。
如果问题仍然存在或无法识别，请联系红帽支持。

名称：CephNodeDown

Message: Storage node {{ $labels.node }} 停机

描述:Storage node {{ $labels.node }} 停机。立即检查节点。

严重级别: Critical

解决方案 ：请联系红帽支持

流程：

检查哪个节点停止正常运行，并检查其原因。
采取适当的操作来恢复节点。如果无法恢复节点：
- 请参阅为 Red Hat OpenShift Data Foundation 替换存储节点
- 联系红帽支持部门.

名称：CephClusterErrorState

消息:Storage cluster is in error state

Description ：存储集群处于错误状态超过 10m。

严重级别: Critical

解决方案 ：请联系红帽支持

流程：

检查警报和操作器状态。
如果无法识别该问题，请使用 must-gather 下载日志文件和诊断信息。
向红帽支持创建一个支持问题单，并附加 must-gather 的输出。

名称：CephClusterWarningState

Message:Storage cluster 处于 degraded 状态

描述:Storage cluster 处于 warning 状态，表示 10m 以上的警告状态。

严重性: 警告

解决方案 ：请联系红帽支持

流程：

检查警报和操作器状态。
如果无法识别该问题，请使用 must-gather 下载日志文件和诊断信息。
向红帽支持创建一个支持问题单，并附加 must-gather 的输出。

名称：CephDataRecoveryTakingTooLong

Message: Data recovery is slow

描述：数据恢复时间过长。

严重性: 警告

解决方案 ：请联系红帽支持

名称：CephOSDDiskNotResponding

Message:Disk not respond

描述 : 磁盘设备 {{ $labels.device }} 未响应，在主机 {{ $labels.host }} 上。

严重级别: Critical

解决方案 ：请联系红帽支持

名称：CephOSDDiskUnavailable

Message:Disk not access

描述: 磁盘设备 {{ $labels.device }} 无法在主机 {{ $labels.host }} 上访问。

严重级别: Critical

解决方案 ：请联系红帽支持

名称：CephPGRepairTakingTooLong

Message:检测到的自助修复问题

描述：执行自助服务修复操作用时过长。

严重性: 警告

解决方案 ：请联系红帽支持

Name:CephMonHighNumberOfLeaderChanges

Message:Storage Cluster 最近看到很多领导变化。

描述:'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} 已看到 {{ $value printf "%.2f" }} leader 每分钟更改。'

严重性: 警告

解决方案 ：请联系红帽支持

名称：CephMonQuorumAtRisk

消息：存储仲裁的风险

描述：存储群集仲裁较低。

严重级别: Critical

解决方案 ：请联系红帽支持

名称：ClusterObjectStoreState

Message:Cluster Object Store is in unhealthy state.检查 Ceph 集群健康状态。

描述:Cluster Object Store is in unhealthy state for more than 15s.检查 Ceph 集群健康状态。

严重级别: Critical

解决方案 ：请联系红帽支持

流程：

检查 CephObjectStore CR 实例。
联系红帽支持部门.

名称：CephOSDFlapping

Message: Storage daemon osd.x has restarted 5 times in the last 5 minutes.检查 pod 事件或 Ceph 状态以查找 cause。

描述：Storage OSD 在 5 分钟内重新启动超过 5 次。

严重级别: Critical

解决方案 ：请联系红帽支持

名称：OdfPoolMirroringImageHealth

Message:Mirroring image(PV)位于池 <pool-name> 中，超过 1m。Mirroring might not work as expected.

描述：对一个或多个应用程序失败。

严重性: 警告

解决方案 ：请联系红帽支持

名称：OdfMirrorDaemonStatus

消息：Mirror 守护进程不健康。

描述：对整个集群进行灾难恢复失败。Mirror daemon is in unhealthy status for more than 1m.Mirroring on this cluster is not working as expected.

严重级别: Critical

解决方案 ：请联系红帽支持

第 7 章对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 7 章 对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 7 章对 OpenShift Data Foundation 中的警报和错误进行故障排除

7.1. 解决警报和错误
复制链接