11.3. 最適なノードリソースの使用状況を示すメトリクスを特定する
ノードメトリクスダッシュボードは、Critical、Outliers、Average durations、Number of Operations の 4 つのカテゴリーに編成されています。Critical カテゴリーのメトリクスは、最適なノードリソースの使用状況を示すのに役立ちます。これらのメトリクスには以下が含まれます。
- 過去 1 日間で最多の OOM キルが発生した上位 3 つのコンテナー
- 過去 1 時間のイメージプル失敗率
- システム予約メモリー使用率が 80% を超えるノード
- Kubelet システム予約メモリー使用率が 50% を超えるノード
- CRI-O システム予約メモリー使用率が 50% を超えるノード
- システム予約 CPU 使用率が 80% を超えるノード
- Kubelet システム予約 CPU 使用率が 50% を超えるノード
- CRI-O システム予約 CPU 使用率が 50% を超えるノード
11.3.1. 過去 1 日間で最多の OOM キルが発生した上位 3 つのコンテナー リンクのコピーリンクがクリップボードにコピーされました!
過去 1 日間で最多の OOM キルが発生した上位 3 つのコンテナー のクエリーでは、前日に最も多くの Out-Of-Memory (OOM) キルが発生した上位 3 つのコンテナーに関する詳細を取得します。
デフォルトクエリーの例
topk(3, sum(increase(container_runtime_crio_containers_oom_count_total[1d])) by (name))
OOM キルが発生すると、システムはメモリー不足により一部のプロセスを強制的に終了します。OOM キルが頻繁に発生すると、ノードの機能だけでなく、Kubernetes エコシステム全体の機能も阻害される可能性があります。OOM キルが頻繁に発生するコンテナーは、必要以上に多くのメモリーを消費している可能性があり、これによりシステムが不安定になります。
このメトリクスを使用して、OOM キルが頻繁に発生しているコンテナーを特定し、これらのコンテナーがメモリーを過剰に消費している原因を調査します。必要に応じてリソース割り当てを調整し、メモリー使用量に基づきコンテナーサイズを変更することを検討してください。Outliers、Average durations、Number of operations カテゴリーのメトリクスを確認して、ノードの正常性と安定性に関する詳細情報を得ることもできます。