第 6 章 对 OpenShift Container Storage 中的警报和错误进行故障排除


6.1. 解决警报和错误

Red Hat OpenShift Container Storage 可以检测并自动解决很多常见的故障情况。但是,有些问题需要管理员介入。

要了解当前触发的错误,请查看以下位置之一:

  • Monitoring Alerting Firing 选项
  • Home Overview Cluster 标签页
  • Storage Overview Block and File 标签页
  • Storage Overview Object 标签页

复制显示的错误并在以下部分搜索它以了解其严重性和解决方案:

Name: CephMonVersionMismatch

Message: 运行多个存储服务版本。

Description{{ $value }} 运行的 Ceph Mon 组件的不同版本。

严重性: 警告

解决方案 :修复

流程 :检查用户界面和日志,并验证更新是否进行中。

  • 如果更新正在进行,则此警报是临时的。
  • 如果更新没有进行,重启升级过程。

名称:CephOSDVersionMismatch

Message: 运行多个存储服务版本。

Description{{ $value }} 运行的 Ceph OSD 组件的不同版本。

严重性: 警告

解决方案 :修复

流程 :检查用户界面和日志,并验证更新是否进行中。

  • 如果更新正在进行,则此警报是临时的。
  • 如果更新没有进行,重启升级过程。

名称CephClusterCriticallyFull

消息存储集群几乎已满,需要立即扩展

描述存储集群利用率已超过 85%。

严重性: 关键

解决方案 :修复

流程 :删除不必要的数据或扩展集群。

名称CephClusterNearFull

修复了:Storage 集群已接近满。需要进行扩展。

描述存储集群利用率已超过 75%

严重性: 警告

解决方案 :修复

流程 :删除不必要的数据或扩展集群。

Name:NooBaaBucketErrorState

Message:A NooBaa Bucket Is In Error State

Description : NooBaa bucket {{ $labels.bucket_name }} 处于错误状态,超过 6m

严重性: 警告

解决方案 :临时解决方案

步骤解决 NooBaa Bucket Error State

名称:NooBaaNamespaceResourceErrorState

Message:A NooBaa Namespace Resource Is In Error State

描述 : NooBaa 命名空间资源 {{ $labels.namespace_resource_name }} 处于错误状态,表示 5m 的错误状态

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Error State

Name:NooBaNamespaceBucketErrorState

Message:A NooBaa Namespace Bucket Is In Error State

Description : NooBaa 命名空间存储桶 {{ $labels.bucket_name }} 处于错误状态,超过 5m

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Error State

名称:NooBaaBucketExceedingQuotaState

Message : NooBaa Bucket In Exceeding Quota State

Description : NooBaa bucket {{ $labels.bucket_name }} 超过其配额 - {{ printf "%0.0f" $value }}% 使用的消息: NooBaa Bucket Is In Exceeding Quota State

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Exceeding Quota State

Name:NooBaaBucketLowCapacityState

Message : NooBaa Bucket Is In Low Capacity State

Description : NooBaa bucket {{ $labels.bucket_name }} 正在为其容量使用 {{ printf "%0.0f" $value }}%

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Capacity 或 Quota State

Name:NooBaaBucketNoCapacityState

Message : NooBaa Bucket Is In Capacity State

描述 : NooBaa 存储桶 {{ $labels.bucket_name }} 使用其所有容量

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Capacity 或 Quota State

Name:NooBaaBucketReachingQuotaState

消息NooBaa Bucket Is In Reaching Quota State

Description : NooBaa bucket {{ $labels.bucket_name }} 正在为其配额使用 {{ printf "%0.0f" $value }}%

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Capacity 或 Quota State

Name:NooBaaResourceErrorState

Message:A NooBaa Resource Is In Error State

描述 : NooBaa resource {{ $labels.resource_name }} 处于错误状态,超过 6m

严重性: 警告

解决方案 :临时解决方案

步骤解决 NooBaa Bucket Error State

Name:NooBaaSystemCapacityWarning100

消息NooBaa System Approached Its Capacity

描述NooBaa 系统接近其容量,使用量为 100%

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Capacity 或 Quota State

Name:NooBaaSystemCapacityWarning85

Message : NooBaa System Is Approaching it Capacity

描述NooBaa 系统接近其容量,使用时间超过 85%

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Capacity 或 Quota State

名称NooBaaSystemCapacityWarning95

Message : NooBaa System Is Approaching it Capacity

描述NooBaa 系统接近其容量,使用时间超过 95%

严重性: 警告

解决方案 :修复

步骤解决 NooBaa Bucket Capacity 或 Quota State

Name:CephMdsMissingReplicas

Message :用于存储元数据服务的不计副本。

Description: `Minimum required replicas for storage metadata service not available.

可能会影响存储集群的工作。

严重性: 警告

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请联系红帽支持团队

名称CephMgrIsAbsent

Message:Storage 指标收集器服务不再可用。

描述 : Ceph Manager 从 Prometheus 目标发现中消失。

严重级别: Critical

解决方案请联系红帽支持

流程

  1. 检查用户界面并记录,并验证更新是否正在进行。

    • 如果更新正在进行,则此警报是临时的。
    • 如果更新没有进行,重启升级过程。
  2. 升级完成后,检查警报和 Operator 状态。
  3. 如果问题持久或无法识别,请联系红帽支持

名称CephNodeDown

Message: Storage node {{ $labels.node }} 停机

描述:Storage node {{ $labels.node }} 停机。请立即检查节点。

严重级别: Critical

解决方案请联系红帽支持

流程

  1. 检查哪个节点停止正常运行,并检查其原因。
  2. 采取适当的操作来恢复节点。如果无法恢复节点:

名称CephClusterErrorState

消息:Storage cluster is in error state

Description存储集群处于错误状态超过 10m。

严重级别: Critical

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请使用 must-gather 下载日志文件和诊断信息
  3. 红帽支持创建一个支持问题单,并附加 must-gather 的输出。

名称CephClusterWarningState

Message:Storage cluster 处于 degraded 状态

描述:Storage cluster 处于 warning 状态,表示 10m 以上的警告状态。

严重性: 警告

解决方案请联系红帽支持

流程

  1. 检查警报和操作器状态。
  2. 如果无法识别该问题,请使用 must-gather 下载日志文件和诊断信息
  3. 红帽支持创建一个支持问题单,并附加 must-gather 的输出。

名称CephDataRecoveryTakingTooLong

Message: Data recovery is slow

描述数据恢复时间过长。

严重性: 警告

解决方案请联系红帽支持

名称CephOSDDiskNotResponding

Message:Disk not respond

描述 : 磁盘设备 {{ $labels.device }} 未响应,在主机 {{ $labels.host }} 上。

严重级别: Critical

解决方案请联系红帽支持

名称CephOSDDiskUnavailable

Message:Disk not access

描述: 磁盘设备 {{ $labels.device }} 无法在主机 {{ $labels.host }} 上访问。

严重级别: Critical

解决方案请联系红帽支持

名称CephPGRepairTakingTooLong

Message:检测到的自助修复问题

描述执行自助服务修复操作用时过长。

严重性: 警告

解决方案请联系红帽支持

Name:CephMonHighNumberOfLeaderChanges

Message:Storage Cluster 最近看到很多领导变化。

描述:'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} 已看到 {{ $value printf "%.2f" }} leader 每分钟更改。'

严重性: 警告

解决方案请联系红帽支持

名称CephMonQuorumAtRisk

消息存储仲裁的风险

描述存储群集仲裁较低。

严重级别: Critical

解决方案请联系红帽支持

名称ClusterObjectStoreState

Message: Cluster Object Store is in unhealthy state.Please check Ceph cluster health.

描述:Cluster Object Store 处于不健康状态,代表超过 15。Please check Ceph cluster health.

严重级别: Critical

解决方案请联系红帽支持

流程

名称CephOSDFlapping

Message: Storage daemon osd.x has restarted 5 times in the last 5 minutes.Please check the pod events or Ceph status to find out the cause.

描述Storage OSD 在 5 分钟内重新启动超过 5 次

严重级别: Critical

解决方案请联系红帽支持

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.