5.3.4. アラートルール
OpenShift Container Platform Cluster Monitoring には、デフォルトで設定される以下のアラートルールが同梱されます。現時点で、カスタムアラートルールを追加することはできません。
一部のアラートルールには同じ名前が付けられています。これは意図的な理由によるものです。これらのルールは、それぞれのしきい値、それぞれの重大度 (severity) またはそれらの両方を使って同じイベントについてのアラートを送ります。抑制ルールを使用すると、高い重大度のアラートが発生する場合に重大度の低いアラートが抑制されます。
アラートルールについての詳細は、configuration file を参照してください。
アラート | 重要度 | 説明 |
---|---|---|
|
| Cluster Monitoring Operator で X% エラーが発生している。 |
|
| Alertmanager が Prometheus のターゲット検出に表示されない。 |
|
| ClusterMonitoringOperator が Prometheus のターゲット検出に表示されない。 |
|
| KubeAPI が Prometheus のターゲット検出に表示されない。 |
|
| KubeControllerManager が Prometheus のターゲット検出に表示されない。 |
|
| KubeScheduler が Prometheus のターゲット検出に表示されない。 |
|
| KubeStateMetrics が Prometheus のターゲット検出に表示されない。 |
|
| Kubelet が Prometheus のターゲット検出に表示されない。 |
|
| NodeExporter が Prometheus のターゲット検出に表示されない。 |
|
| Prometheus が Prometheus のターゲット検出に表示されない。 |
|
| PrometheusOperator が Prometheus のターゲット検出に表示されない。 |
|
| Namespace/Pod (コンテナー) が再起動している (回数 / 秒)。 |
|
| Namespace/Pod の準備ができていない。 |
|
| デプロイメント Namespace/Deployment 生成の不一致。 |
|
| デプロイメント Namespace/Deployment レプリカの不一致。 |
|
| StatefulSet Namespace/StatefulSet レプリカの不一致。 |
|
| StatefulSet Namespace/StatefulSet 生成の不一致。 |
|
| 必要な Pod の X% のみがスケジュールされており、daemon set Namespace/DaemonSet に対して準備ができている。 |
|
| daemonset Namespace/DaemonSet の多数の Pod がスケジュールされていない。 |
|
| daemonset Namespace/DaemonSet の多数の Pod が実行される場所ではない場所で実行されている。 |
|
| CronJob Namespace/CronJob の完了に 1 時間を超える時間がかかる。 |
|
| ジョブ Namespaces/Job の完了に 1 時間を超える時間がかかる。 |
|
| ジョブ Namespaces/Job を完了できない。 |
|
| Pod でのオーバーコミットされた CPU リソース要求がノードの失敗を許容できない。 |
|
| Pod でのオーバーコミットされたメモリーリソース要求がノードの失敗を許容できない。 |
|
| Namespace でのオーバーコミットされた CPU リソース要求のクォータ。 |
|
| Namespace でのオーバーコミットされたメモリーリソース要求のクォータ。 |
|
| namespace Namespace での Resource が X% 使用されている。 |
|
| namespace Namespace の PersistentVolumeClaim で要求される永続ボリュームに X% の空きがある。 |
|
| 直近のサンプリングにより、namespace Namespace の PersistentVolumeClaim で要求される永続ボリュームが 4 日以内で一杯になることが予想される。現時点で X バイトが利用可能。 |
|
| Node が 1 時間を経過しても準備状態にならない。 |
|
| Kubernetes コンポーネントの X 種類のバージョンが実行中である。 |
|
| Kubernetes API サーバークライアントの 'Job/Instance' で X% エラーが発生している。 |
|
| Kubernetes API サーバークライアントの 'Job/Instance' で毎秒 X エラーが発生している。 |
|
| Kubelet Instance が上限の 110 に近い X Pod を実行している。 |
|
| API サーバーに Verb Resource について 99 番目のパーセンタイルのレイテンシー X 秒がある。 |
|
| API サーバーに Verb Resource について 99 番目のパーセンタイルのレイテンシー X 秒がある。 |
|
| API サーバーで X% の要求についてエラーが生じている。 |
|
| API サーバーで X% の要求についてエラーが生じている。 |
|
| Kubernetes API 証明書の有効期限が 7 日以内に切れる。 |
|
| Kubernetes API 証明書の有効期限が 1 日以内に切れる。 |
|
|
要約: 設定の同期が取れていない。説明: Alertmanager クラスター |
|
| 要約: Alertmanager の設定のリロードが失敗。説明: Alertmanager の設定のリロードが Namespace/Pod に対して失敗する。 |
|
| 要約: ターゲットがダウンしている。説明: X% の Job ターゲットがダウンしている。 |
|
| 要約: DeadMansSwitch のアラート。説明: アラートパイプライン全体が機能することを確認するための DeadMansSwitch。 |
|
| node-exporter Namespace/Pod のデバイス Device が 24 時間以内に一杯の状態で実行される。 |
|
| node-exporter Namespace/Pod のデバイス Device が 2 時間以内に一杯の状態で実行される。 |
|
| 要約: Prometheus の設定のリロードに失敗。説明: Prometheus の設定が Namespace/Pod に対して失敗した。 |
|
| 要約: Prometheus のアラート通知キューが一杯の状態で実行されている。説明: Prometheus のアラート通知キューが Namespace/Pod に対して一杯の状態で実行されている。 |
|
| 要約: Prometheus からのアラートの送信時のエラー。説明: アラートの Prometheus Namespace/Pod から Alertmanager Alertmanager への送信時のエラー。 |
|
| 要約: Prometheus からのアラートの送信時のエラー。説明: アラートの Prometheus Namespace/Pod から Alertmanager Alertmanager への送信時のエラー。 |
|
| 要約: Prometheus が Alertmanager に接続されていない。説明: Prometheus Namespace/Pod が Alertmanager に接続されていない。 |
|
| 要約: Prometheus にディスクからのデータブロックのリロードの問題がある。説明: Instance の Job で、4 時間以内に X のリロードの問題が発生。 |
|
| 要約: Prometheus でサンプルブロックのコンパクト化の問題がある。説明: Instance の Job で、4 時間以内に X のコンパクト化の問題が発生。 |
|
| 要約: Prometheus ログ先行書き込みが破損している。説明: Instance の Job に破損したログ先行書き込み (WAL) がある。 |
|
| 要約: Prometheus がサンプルを取り入れていない。説明: Prometheus Namespace/Pod がサンプルを取り入れていない。 |
|
| 要約: Prometheus の多くのサンプルが拒否されている。説明: Namespace/Pod には、重複したタイムスタンプ (ただし異なる値を含む) により多くのサンプルが拒否されている。 |
|
| Etcd クラスター "Job": メンバーが不十分 (X)。 |
|
| Etcd クラスター "Job": メンバー Instance にリーダーがない。 |
|
| Etcd クラスター "Job": インスタンス Instance で 1 時間以内に X leader 変更が生じる。 |
|
| Etcd クラスター "Job": GRPC_Method についての X% の要求が etcd インスタンス Instance で失敗。 |
|
| Etcd クラスター "Job": GRPC_Method についての X% の要求が etcd インスタンス Instance で失敗。 |
|
| Etcd クラスター "Job": GRPC_Method の gRPC 要求に X_s on etcd instance _Instance がかかっている。 |
|
| Etcd クラスター "Job": To とのメンバー通信に X_s on etcd instance _Instance がかかっている。 |
|
| Etcd クラスター "Job": etcd インスタンス Instance での 1 時間以内の X proposal の失敗。 |
|
| Etcd クラスター "Job": 99 番目のパーセンタイルの fync 期間は X_s on etcd instance _Instance。 |
|
| Etcd クラスター "Job": 99 番目のパーセンタイルのコミット期間 X_s on etcd instance _Instance. |
|
| Job インスタンス Instance がそのファイル記述子をすぐに使い切る。 |
|
| Job インスタンス Instance がそのファイル記述子をすぐに使い切る。 |