第6章 OpenShift Data Foundation のアラートおよびエラーのトラブルシューティング


6.1. アラートとエラーの解決

Red Hat OpenShift Data Foundation は、多くの共通する障害シナリオを検出し、これらを自動的に解決できます。ただし、一部の問題には管理者の介入が必要です。

現在発生しているエラーを確認するには、以下のいずれかの場所を確認します。

  • Observe Alerting Firing オプション
  • Home Overview Cluster タブ
  • Storage Data Foundation Storage System storage system リンクのポップアップ Overview Block and File タブ
  • Storage Data Foundation Storage System storage system リンクのポップアップ Overview Object タブ

表示されるエラーをコピーして、これを以下のセクションで検索し、その重大度と解決策を確認します。

Expand

名前: CephMonVersionMismatch

メッセージ: There are multiple versions of storage services running.

説明: There are {{ $value }} different versions of Ceph Mon components running.

重大度: Warning

解決策: Fix

Procedure: Inspect the user interface and log, and verify if an update is in progress.

  • If an update in progress, this alert is temporary.
  • If an update is not in progress, restart the upgrade process.

名前: CephOSDVersionMismatch

メッセージ: There are multiple versions of storage services running.

説明: There are {{ $value }} different versions of Ceph OSD components running.

重大度: Warning

解決策: Fix

Procedure: Inspect the user interface and log, and verify if an update is in progress.

  • If an update in progress, this alert is temporary.
  • If an update is not in progress, restart the upgrade process.

名前: CephClusterCriticallyFull

メッセージ: Storage cluster is critically full and needs immediate expansion

説明: Storage cluster utilization has crossed 85%.

重大度: Crtical

解決策: Fix

手順: 不要なデータを削除するか、クラスターを拡張します。

名前: CephClusterNearFull

修正済: Storage cluster is nearing full.Expansion is required.

説明: Storage cluster utilization has crossed 75%.

重大度: Warning

解決策: Fix

手順: 不要なデータを削除するか、クラスターを拡張します。

名前: NooBaaBucketErrorState

メッセージ: A NooBaa Bucket Is In Error State

説明: A NooBaa bucket {{ $labels.bucket_name }} is in error state for more than 6m

重大度: Warning

解決策: Workaround

手順: 健全でないバケットのエラーコードを見つける

名前: NooBaaNamespaceResourceErrorState

メッセージ: A NooBaa Namespace Resource Is In Error State

説明: A NooBaa namespace resource {{ $labels.namespace_resource_name }} is in error state for more than 5m

重大度: Warning

解決策: Fix

手順:正常でない namespace ストアリソースのエラーコードを見つける

名前: NooBaaNamespaceBucketErrorState

メッセージ: A NooBaa Namespace Bucket Is In Error State

説明: A NooBaa namespace bucket {{ $labels.bucket_name }} is in error state for more than 5m

重大度: Warning

解決策: Fix

手順: 健全でないバケットのエラーコードを見つける

名前: CephMdsMissingReplicas

メッセージ: Insufficient replicas for storage metadata service.

説明: `Minimum required replicas for storage metadata service not available.

Might affect the working of storage cluster.`

重大度: Warning

解決策: Contact Red Hat support

手順:

  1. アラートと Operator のステータスを確認します。
  2. 問題を特定できない場合は、Red Hat サポートにお問い合わせください

名前: CephMgrIsAbsent

メッセージ: Storage metrics collector service not available anymore.

説明: Ceph Manager has disappeared from Prometheus target discovery.

重大度: Critical

解決策: Contact Red Hat support

手順:

  1. ユーザーインターフェイスとログを調べて、更新が進行中であるかどうかを確認します。

    • If an update in progress, this alert is temporary.
    • If an update is not in progress, restart the upgrade process.
  2. Once the upgrade is complete, check for alerts and operator status.
  3. If the issue persistents or cannot be identified, contact Red Hat support.

Name: CephNodeDown

メッセージ: Storage node {{ $labels.node }} went down

Description: Storage node {{ $labels.node }} went down.Please check the node immediately.

Severity: Critical

解決策: Contact Red Hat support

手順:

  1. どのノードが機能を停止したか、およびその原因を確認します。
  2. ノードを回復するには適切なアクションを実行してください。ノードを回復できない場合:

名前: CephClusterErrorState

メッセージ: Storage cluster is in error state

説明: Storage cluster is in error state for more than 10m.

重大度: Critical

解決策: Contact Red Hat support

手順:

  1. アラートと Operator のステータスを確認します。
  2. 問題を特定できない場合は、must-gather を使用してログファイルと診断情報をダウンロードします
  3. must-gather の出力を添付して、Red Hat サポートサポートチケットを開きます

名前: CephClusterWarningState

メッセージ: Storage cluster is in degraded state

説明: Storage cluster is in warning state for more than 10m.

重大度: Warning

解決策: Contact Red Hat support

手順:

  1. アラートと Operator のステータスを確認します。
  2. 問題を特定できない場合は、must-gather を使用してログファイルと診断情報をダウンロードします
  3. must-gather の出力を添付して、Red Hat サポートサポートチケットを開きます

名前: CephDataRecoveryTakingTooLong

メッセージ: Data recovery is slow

説明: Data recovery has been active for too long.

重大度: Warning

解決策: Contact Red Hat support

名前: CephOSDDiskNotResponding

メッセージ: Disk not responding

説明: Disk device {{ $labels.device }} not responding, on host {{ $labels.host }}.

重大度: Critical

解決策: Contact Red Hat support

名前: CephOSDDiskUnavailable

メッセージ: Disk not accessible

説明: Disk device {{ $labels.device }} not accessible on host {{ $labels.host }}.

重大度: Critical

解決策: Contact Red Hat support

名前: CephPGRepairTakingTooLong

メッセージ: Self heal problems detected

説明: Self heal operations taking too long.

重大度: Warning

解決策: Contact Red Hat support

名前: CephMonHighNumberOfLeaderChanges

メッセージ: Storage Cluster has seen many leader changes recently.

説明: 'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} has seen {{ $value printf "%.2f" }} leader changes per minute recently.'

重大度: Warning

解決策: Contact Red Hat support

名前: CephMonQuorumAtRisk

メッセージ: Storage quorum at risk

説明: Storage cluster quorum is low.

重大度: Critical

解決策: Contact Red Hat support

Name: ClusterObjectStoreState

Message: Cluster Object Store is in unhealthy state.Please check Ceph cluster health.

Description: Cluster Object Store is in unhealthy state for more than 15s.Please check Ceph cluster health.

重大度: Critical

解決策: Contact Red Hat support

手順:

名前: CephOSDFlapping

Message: Storage daemon osd.x has restarted 5 times in the last 5 minutes.Please check the pod events or Ceph status to find out the cause.

Description: Storage OSD restarts more than 5 times in 5 minutes.

重大度: Critical

解決策: Contact Red Hat support

名前: OdfPoolMirroringImageHealth

メッセージ: Mirroring image(s) (PV) in the pool <pool-name> are in Warning state for more than a 1m. Mirroring might not work as expected.

説明: 1 つまたはいくつかのアプリケーションで障害復旧が失敗しています。

重大度: Warning

解決策: Contact Red Hat support

名前: OdfMirrorDaemonStatus

メッセージ: Mirror daemon is unhealthy.

説明: クラスター全体で障害復旧に失敗します。mirror デーモンが 1 分以上異常状態になっています。Mirroring on this cluster is not working as expected.

重大度: Critical

解決策: Contact Red Hat support

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat