5.3. GFS2 ファイルシステムがハングし全ノードの再起動を必要とする
ご使用の GFS2 ファイルシステムがハングし、それに対して実行したコマンドが戻ってこないため、使用できる状態にするにはクラスター内の全ノードを再起動する必要がある場合には以下の問題を確認してください。
- 排他処理機能に障害が発生している可能性があります。排他処理機能に障害が発生した場合、GFS2 ファイルシステムはデータの整合性を確保するためフリーズします。メッセージログを確認し、ハング時に排他処理機能に障害が発生していなかったか確認してください。排他処理機能のフェンスが正しく設定されているか確認してください。
- withdraw が作動し GFS2 ファイルシステムが使用できなくなっている可能性があります。メッセージログ中に
withdraw
という単語がないか、withdraw が作動してファイルシステムが使用できなくなったことを示す GFS2 のメッセージやコールトレースがないか調べます。withdraw の作動はファイルシステムの破損、ストレージの障害、またはバグなどの兆候になります。ファイルシステムをアンマウントしてgfs2-utils
パッケージを更新し、fsck
コマンドをファイルシステム上で実行してファイルシステムが再び正しく動作するようにします。Red Hat サポートのチケットを作成し GFS2 の withdraw が作動した旨の報告をお願いします。また sosreport にログを付けて送信してください。GFS2 の withdraw 関数の詳細は 「GFS2 の withdraw 関数」 を参照してください。 - ロック関連の問題が発生したかバグの可能性があります。発生中にデータを収集し、「GFS2 ファイルシステムがハングし単一ノードの再起動を必要とする」 の記載にしたがって Red Hat サポートのチケットを作成してください。