第7章 OpenShift Data Foundation のアラートおよびエラーのトラブルシューティング


7.1. アラートとエラーの解決

Red Hat OpenShift Data Foundation は、多くの共通する障害シナリオを検出し、これらを自動的に解決できます。ただし、一部の問題には管理者の介入が必要です。

現在発生しているエラーを確認するには、以下のいずれかの場所を確認します。

  • Observe Alerting Firing オプション
  • Home Overview Cluster タブ
  • Storage Data Foundation Storage System storage system リンクのポップアップ Overview Block and File タブ
  • Storage Data Foundation Storage System storage system リンクのポップアップ Overview Object タブ

表示されるエラーをコピーして、これを以下のセクションで検索し、その重大度と解決策を確認します。

名前: CephMonVersionMismatch

メッセージ: There are multiple versions of storage services running.

説明: There are {{ $value }} different versions of Ceph Mon components running.

重大度: Warning

解決策: Fix

手順: ユーザーインターフェイスとログを検査し、更新が進行中かどうかを確認します。

  • 更新が進行中の場合、このアラートは一時的なものになります。
  • 更新が進行中でない場合は、アップグレードプロセスを再開します。

名前: CephOSDVersionMismatch

メッセージ: There are multiple versions of storage services running.

説明: There are {{ $value }} different versions of Ceph OSD components running.

重大度: Warning

解決策: Fix

手順: ユーザーインターフェイスとログを検査し、更新が進行中かどうかを確認します。

  • 更新が進行中の場合、このアラートは一時的なものになります。
  • 更新が進行中でない場合は、アップグレードプロセスを再開します。

名前: CephClusterCriticallyFull

メッセージ: Storage cluster is critically full and needs immediate expansion

説明: Storage cluster utilization has crossed 85%.

重大度: Crtical

解決策: Fix

手順: 不要なデータを削除するか、クラスターを拡張します。

名前: CephClusterNearFull

修正済: Storage cluster is nearing full.Expansion is required.

説明: Storage cluster utilization has crossed 75%.

重大度: Warning

解決策: Fix

手順: 不要なデータを削除するか、クラスターを拡張します。

名前: NooBaaBucketErrorState

メッセージ: A NooBaa Bucket Is In Error State

説明: A NooBaa bucket {{ $labels.bucket_name }} is in error state for more than 6m

重大度: Warning

解決策: Workaround

手順: 健全でないバケットのエラーコードを見つける

名前: NooBaaNamespaceResourceErrorState

メッセージ: A NooBaa Namespace Resource Is In Error State

説明: A NooBaa namespace resource {{ $labels.namespace_resource_name }} is in error state for more than 5m

重大度: Warning

解決策: Fix

手順:正常でない namespace ストアリソースのエラーコードを見つける

名前: NooBaaNamespaceBucketErrorState

メッセージ: A NooBaa Namespace Bucket Is In Error State

説明: A NooBaa namespace bucket {{ $labels.bucket_name }} is in error state for more than 5m

重大度: Warning

解決策: Fix

手順: 健全でないバケットのエラーコードを見つける

名前: CephMdsMissingReplicas

メッセージ: Insufficient replicas for storage metadata service.

説明: `Minimum required replicas for storage metadata service not available.

Might affect the working of storage cluster.`

重大度: Warning

解決策: Contact Red Hat support

手順:

  1. アラートと Operator のステータスを確認します。
  2. 問題を特定できない場合は、Red Hat サポートにお問い合わせください

名前: CephMgrIsAbsent

メッセージ: Storage metrics collector service not available anymore.

説明: Ceph Manager has disappeared from Prometheus target discovery.

重大度: Critical

解決策: Contact Red Hat support

手順:

  1. ユーザーインターフェイスとログを調べて、更新が進行中であるかどうかを確認します。

    • 更新が進行中の場合、このアラートは一時的なものになります。
    • 更新が進行中でない場合は、アップグレードプロセスを再開します。
  2. アップグレードが完了したら、アラートと Operator のステータスを確認します。
  3. 問題が解決しない、または問題を特定できない場合は、Red Hat サポートにお問い合わせください

名前: CephNodeDown

メッセージ: Storage node {{ $labels.node }} went down

説明: Storage node {{ $labels.node }} went down.Check the node immediately.

重大度: Critical

解決策: Contact Red Hat support

手順:

  1. どのノードが機能を停止したか、およびその原因を確認します。
  2. ノードを回復するには適切なアクションを実行してください。ノードを回復できない場合:

名前: CephClusterErrorState

メッセージ: Storage cluster is in error state

説明: Storage cluster is in error state for more than 10m.

重大度: Critical

解決策: Contact Red Hat support

手順:

  1. アラートと Operator のステータスを確認します。
  2. 問題を特定できない場合は、must-gather を使用してログファイルと診断情報をダウンロードします
  3. must-gather の出力を添付して、Red Hat サポートサポートチケットを開きます

名前: CephClusterWarningState

メッセージ: Storage cluster is in degraded state

説明: Storage cluster is in warning state for more than 10m.

重大度: Warning

解決策: Contact Red Hat support

手順:

  1. アラートと Operator のステータスを確認します。
  2. 問題を特定できない場合は、must-gather を使用してログファイルと診断情報をダウンロードします
  3. must-gather の出力を添付して、Red Hat サポートサポートチケットを開きます

名前: CephDataRecoveryTakingTooLong

メッセージ: Data recovery is slow

説明: Data recovery has been active for too long.

重大度: Warning

解決策: Contact Red Hat support

名前: CephOSDDiskNotResponding

メッセージ: Disk not responding

説明: Disk device {{ $labels.device }} not responding, on host {{ $labels.host }}.

重大度: Critical

解決策: Contact Red Hat support

名前: CephOSDDiskUnavailable

メッセージ: Disk not accessible

説明: Disk device {{ $labels.device }} not accessible on host {{ $labels.host }}.

重大度: Critical

解決策: Contact Red Hat support

名前: CephPGRepairTakingTooLong

メッセージ: Self heal problems detected

説明: Self heal operations taking too long.

重大度: Warning

解決策: Contact Red Hat support

名前: CephMonHighNumberOfLeaderChanges

メッセージ: Storage Cluster has seen many leader changes recently.

説明: 'Ceph Monitor "{{ $labels.job }}": instance {{ $labels.instance }} has seen {{ $value printf "%.2f" }} leader changes per minute recently.'

重大度: Warning

解決策: Contact Red Hat support

名前: CephMonQuorumAtRisk

メッセージ: Storage quorum at risk

説明: Storage cluster quorum is low.

重大度: Critical

解決策: Contact Red Hat support

名前: ClusterObjectStoreState

メッセージ: Cluster Object Store is in an unhealthy state.Check Ceph cluster health.

説明: Cluster Object Store is in an unhealthy state for more than 15s.Check Ceph cluster health.

重大度: Critical

解決策: Contact Red Hat support

手順:

名前: CephOSDFlapping

メッセージ: Storage daemon osd.x has restarted 5 times in the last 5 minutes.Check the pod events or Ceph status to find out the cause.

説明: Storage OSD restarts more than 5 times in 5 minutes.

重大度: Critical

解決策: Contact Red Hat support

名前: OdfPoolMirroringImageHealth

メッセージ: Mirroring image(s) (PV) in the pool <pool-name> are in Warning state for more than a 1m. Mirroring might not work as expected.

説明: 1 つまたはいくつかのアプリケーションで障害復旧が失敗しています。

重大度: Warning

解決策: Contact Red Hat support

名前: OdfMirrorDaemonStatus

メッセージ: Mirror daemon is unhealthy.

説明: Disaster recovery is failing for the entire cluster.Mirror daemon is in an unhealthy status for more than 1m.Mirroring on this cluster is not working as expected.

重大度: Critical

解決策: Contact Red Hat support

Red Hat logoGithubRedditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

© 2024 Red Hat, Inc.