第26章 Node Problem Detector
26.1. 概要
Node Problem Detector (ノード問題検出機能) は特定の問題を検出し、それらの問題を API サーバーに報告することで、ノードの正常性をモニターします。Node Problem Detector は、各ノードで daemonSet として実行されます。
Node Problem Detector はテクノロジープレビュー機能です。テクノロジープレビュー機能は、Red Hat の実稼働環境でのサービスレベルアグリーメント (SLA) ではサポートされていないため、Red Hat では実稼働環境での使用を推奨していません。テクノロジープレビューの機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行いフィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポートについての詳細は、https://access.redhat.com/support/offerings/techpreview/ を参照してください。
Node Problem Detector はシステムログを読み取り、特定のエントリーの有無を監視し、コントロールプレーンにそれらの問題を表示します。これは、oc get node
および oc get event
などの OpenShift Container Platform のコマンドを使用して表示することができます。これらの問題については、適宜修正するようアクションを実行するか、または OpenShift Container Platform ログモニターリング などの選択可能なツールを使用して、メッセージをキャプチャーすることができます。検出される問題は以下のいずれかのカテゴリーに分類できます。
-
NodeCondition
: ノードを Pod に対して利用不可にする永続的な問題です。ノードの状態は、ホストが再起動されるまでクリアされません。 -
Event
: ノードに制限的な影響を与える一時的な問題で、情報を提供します。
Node Problem Detector は以下を検出できます。
コンテナーランタイムの問題:
- 反応しないランタイムデーモン
ハードウェアの問題:
- 正常でない CPU
- 正常でないメモリー
- 正常でないディスク
カーネルの問題:
- カーネルのデッドロック状態
- 破損したファイルシステム
- 反応しないランタイムデーモン
インフラストラクチャーデーモンの問題:
- NTP サービスの停止