26.2. Node Problem Detector の出力サンプル
以下の例では、特定のノードでカーネルのデッドロックを監視する Node Problem Detector の出力を示しています。コマンドでは oc get node
を使用し、ログで KernelDeadlock
エントリーについてフィルターし、特定のノードを監視します。
# oc get node <node> -o yaml | grep -B5 KernelDeadlock
Node Problem Detector の出力サンプル (問題がない場合)
message: kernel has no deadlock reason: KernelHasNoDeadlock status: false type: KernelDeadLock
KernelDeadLock 状態の出力サンプル
message: task docker:1234 blocked for more than 120 seconds reason: DockerHung status: true type: KernelDeadLock
この例は、ノードでイベントの有無を監視する Node Problem Detector からの出力を示しています。以下のコマンドでは、デフォルト プロジェクトに対して oc get event
を使用し、Node Problem Detector 設定マップ の kernel-monitor.json
セクションに一覧表示されているイベントの有無を監視します。
# oc get event -n default --field-selector=source=kernel-monitor --watch
ノードのイベントを表示する出力サンプル
LAST SEEN FIRST SEEN COUNT NAME KIND SUBOBJECT TYPE REASON SOURCE MESSAGE 2018-06-27 09:08:27 -0400 EDT 2018-06-27 09:08:27 -0400 EDT 1 my-node1 node Warning TaskHunk kernel-monitor.my-node1 docker:1234 blocked for more than 300 seconds 2018-06-27 09:08:27 -0400 EDT 2018-06-27 09:08:27 -0400 EDT 3 my-node2 node Warning KernelOops kernel-monitor.my-node2 BUG: unable to handle kernel NULL pointer deference at nowhere 2018-06-27 09:08:27 -0400 EDT 2018-06-27 09:08:27 -0400 EDT 1 my-node1 node Warning KernelOops kernel-monitor.my-node2 divide error 0000 [#0] SMP
Node Problem Detector はリソースを消費します。Node Problem Detector を使用する場合は、クラスターパフォーマンスのバランスを取るのに十分なノードがあることを確認します。