第13章 ロギングアラート
13.1. デフォルトのロギングアラート
ロギングアラートは、Red Hat OpenShift Logging Operator のインストール中にインストールされます。アラートは、ログ収集およびログストレージバックエンドによってエクスポートされたメトリクスに依存します。これらのメトリクスは、Red Hat OpenShift Logging Operator のインストール時に、Enable Operator recommended cluster monitoring on this namespace オプションを選択した場合に有効になります。
ローカルの Alertmanager インスタンスを無効にしていない限り、デフォルトのロギングアラートは、openshift-monitoring
namespace の OpenShift Container Platform モニタリングスタック Alertmanager に送信されます。
13.1.1. Administrator および Developer パースペクティブでのアラート UI へのアクセス
アラート UI は、OpenShift Container Platform Web コンソールの Administrator および Developer パースペクティブからアクセスできます。
-
Administrator パースペクティブで、Observe
Alerting に移動します。このパースペクティブのアラート UI には主要なページが 3 つあり、それが Alerts ページ、Silences ページ、Alerting rules ページです。
-
Developer パースペクティブで、Observe
<project_name> Alerts に移動します。このパースペクティブのアラートでは、サイレンスおよびアラートルールはすべて Alerts ページで管理されます。Alerts ページに表示される結果は、選択されたプロジェクトに固有のものです。
Developer パースペクティブでは、コア OpenShift Container Platform と、Project: <project_name> リスト内のアクセス可能なユーザー定義プロジェクトから選択できます。ただし、クラスター管理者としてログインしていない場合、コア OpenShift Container Platform プロジェクトに関連するアラート、サイレンス、およびアラートルールは表示されません。
13.1.2. ロギングコレクターのアラート
Logging 5.8 以降のバージョンでは、Red Hat OpenShift Logging Operator によって次のアラートが生成されます。これらのアラートは OpenShift Container Platform Web コンソールで表示できます。
アラート名 | メッセージ | 説明 | 重大度 |
---|---|---|---|
CollectorNodeDown |
Prometheus could not scrape | コレクターはスクレイピングできません。 | Critical |
CollectorHighErrorRate |
|
| Critical |
CollectorVeryHighErrorRate |
|
| Critical |
13.1.3. Vector コレクターのアラート
Logging 5.7 以降のバージョンでは、Vector コレクターによって次のアラートが生成されます。これらのアラートは OpenShift Container Platform Web コンソールで表示できます。
アラート | メッセージ | 説明 | 重大度 |
---|---|---|---|
|
| ベクター出力エラーの数は、デフォルトでは直前の 15 分間で 10 分を超えます。 | Warning |
|
| Vector は、Prometheus が特定の Vector インスタンスをスクレイピングできなかったと報告しています。 | Critical |
|
| Vector コンポーネントエラーの数は非常に多く、デフォルトでは過去 15 分間に 25 件を超えています。 | Critical |
|
| Fluentd はキューサイズが増加していることを報告しています。 | Warning |
13.1.4. Fluentd コレクターのアラート
次のアラートは、従来の Fluentd ログコレクターによって生成されます。これらのアラートは OpenShift Container Platform Web コンソールで表示できます。
アラート | メッセージ | 説明 | 重大度 |
---|---|---|---|
|
| FluentD 出力エラーの数は、デフォルトでは直前の 15 分間で 10 分を超えます。 | Warning |
|
| Fluentd は Prometheus が特定の Fluentd インスタンスを収集できなかったことを報告します。 | Critical |
|
| Fluentd はキューサイズが増加していることを報告しています。 | Warning |
|
| FluentD 出力エラーの数は非常に高くなります。デフォルトでは、直前の 15 分間で 25 を超えます。 | Critical |
13.1.5. Elasticsearch アラートルール
これらのアラートルールは、OpenShift Container Platform Web コンソールで表示できます。
アラート | 説明 | 重大度 |
---|---|---|
| クラスターのヘルスステータスは少なくとも 2m の間 RED になります。クラスターが書き込みを受け入れず、シャードが見つからないか、マスターノードがまだ選択されていません。 | Critical |
| クラスターのヘルスステータスは少なくとも 20m の間 YELLOW になります。一部のシャードレプリカは割り当てられません。 | Warning |
| クラスターでは、次の 6 時間以内にディスク領域が不足することが予想されます。 | Critical |
| クラスターでは、次の 1 時間以内にファイル記述子が不足することが予想されます。 | Warning |
| 指定されたノードでの JVM ヒープの使用率が高くなっています。 | アラート |
| 指定されたノードは、ディスクの空き容量が少ないために低基準値に達しています。シャードをこのノードに割り当てることはできません。ノードにディスク領域を追加することを検討する必要があります。 | Info |
| 指定されたノードは、ディスクの空き容量が少ないために高基準値に達しています。一部のシャードは可能な場合に別のノードに再度割り当てられる可能性があります。ノードにディスク領域が追加されるか、このノードに割り当てられる古いインデックスをドロップします。 | Warning |
| 指定されたノードは、ディスクの空き容量が少ないために高基準値に達しています。このノードにシャードが割り当てられるすべてのインデックスは、読み取り専用ブロックになります。インデックスブロックは、ディスクの使用状況が高基準値を下回る場合に手動で解放される必要があります。 | Critical |
| 指定されたノードの JVM ヒープの使用率が高すぎます。 | アラート |
| Elasticsearch では、指定されたノードで書き込み拒否が増加しています。このノードはインデックスの速度に追い付いていない可能性があります。 | Warning |
| 指定されたノードのシステムで使用される CPU が高すぎます。 | アラート |
| 指定されたノードで Elasticsearch によって使用される CPU が高すぎます。 | アラート |