2.2. コアプラットフォームモニタリングの最初のステップ
OpenShift Container Platform がインストールされると、コアプラットフォームモニタリングコンポーネントは、照会と表示が可能なメトリクスの収集をすぐに開始します。デフォルトのクラスター内モニタリングスタックには、クラスターからメトリクスを収集するコアプラットフォーム Prometheus インスタンスや、アラートをルーティングするコア Alertmanager インスタンスなどのコンポーネントが含まれます。モニタリングスタックを誰がどのような目的で使用するかに応じて、クラスター管理者は、さまざまな状況で各ユーザーのニーズに合わせてこれらのモニタリングコンポーネントをさらに設定できます。
2.2.1. コアプラットフォームモニタリングの設定: インストール後の手順
OpenShift Container Platform がインストールされた後、クラスター管理者は通常、ニーズに合わせてコアプラットフォームのモニタリングを設定します。これらのアクティビティーには、ストレージのセットアップや、Prometheus、Alertmanager、その他のモニタリングコンポーネントのオプションの設定が含まれます。
デフォルトでは、新しくインストールされた OpenShift Container Platform システムで、ユーザーは収集されたメトリクスを照会および表示できます。ユーザーにアラート通知を受信させる場合にのみ、アラートレシーバーを設定する必要があります。ここにリストされているその他の設定オプションはすべて任意です。
-
cluster-monitoring-config
ConfigMap
オブジェクト が存在しない場合は作成します。 - Alertmanager がメール、Slack、PagerDuty などの外部通知システムにアラートを送信できるように、デフォルトのプラットフォームアラートの通知を設定 します。
より短期間のデータ保持の場合は、Prometheus と Alertmanager の 永続ストレージを設定 して、メトリクスとアラートデータを保存してください。Prometheus および Thanos Ruler のメトリクスデータ保持パラメーターを指定します。
重要- マルチノードクラスターでは、高可用性を実現するために、Prometheus、Alertmanager、および Thanos Ruler の永続ストレージを設定する必要があります。
-
デフォルトでは、新しくインストールされた OpenShift Container Platform システムでは、モニタリングの
ClusterOperator
リソースがPrometheusDataPersistenceNotConfigured
ステータスメッセージを報告し、ストレージが設定されていないことを通知します。
データをより長期間保持するには、リモート書き込み機能を設定 して、取り込んだメトリクスを Prometheus がリモートシステムに送信して保存できるようにします。
重要リモート書き込みストレージ設定で使用するために、メトリクスにクラスター ID ラベルを必ず追加 してください。
- 特定のモニタリング機能にアクセスする必要がある管理者以外のユーザーに モニタリングクラスターロールを付与 します。
- 管理者が taint されたノードに移動できるように、モニタリングスタックコンポーネントに toleration を割り当て ます。
- メトリクス収集の ボディーサイズ制限を設定 すると、スクレイピングされたターゲットが大量のデータを含む応答を返すときに Prometheus が過剰にメモリーを消費する状況を回避できます。
- クラスターの アラートルールを変更または作成 します。これらのルールは、CPU またはメモリーの使用率が高い、ネットワークの遅延など、アラートをトリガーする条件を指定します。
- モニタリングコンポーネントを実行するコンテナーに十分な CPU およびメモリーリソースを確保するために、モニタリングコンポーネントのリソース制限および要求を指定 します。
モニタリングスタックがニーズに合わせて設定されると、Prometheus は指定されたサービスからメトリクスを収集し、設定に従ってこれらのメトリクスを保存します。OpenShift Container Platform Web コンソールの Observe ページに移動して、収集されたメトリクスの表示とクエリー、アラートの管理、パフォーマンスのボトルネックの特定、必要に応じてリソースのスケーリングを行うことができます。
- ダッシュボードを表示 して、収集されたメトリクスを視覚化し、アラートをトラブルシューティングし、クラスターに関するその他の情報を監視します。
- PromQL クエリーを作成するか、定義済みクエリーを使用して、収集されたメトリクスを照会 します。