6.7. Ceph の監視
クォータアラートが重複している
以前は、Object Bucket Claim (OBC) のクォータ制限に達すると、冗長なアラートが発生していました。これは、OBC クォータが 100% に達したときに、ObcQuotaObjectsAlert
(OBC オブジェクトクォータが制限の 80% を超えたとき) と ObcQuotaObjectsExhausedAlert
(クォータが 100% に達したとき) の両方のアラートが発動されたためです。
この修正により、アラートのクエリーが変更され、問題を示すアラートが一度に 1 つだけトリガーされるようになりました。その結果、クォータが 80% を超えると ObcQuotaObjectsAlert
がトリガーされ、クォータが 100% になると ObcQuotaObjectsExhausedAlert
がトリガーされます。
プールクォータルールの PrometheusRule 評価が失敗する
以前は、マルチクラスター設定で pool-quota
ルールにより PrometheusRuleFailures
アラートが発行されたため、Ceph プールクォータアラートは表示されませんでした。pool-quota
セクションのクエリーでは、マルチクラスター設定でアラートが発行されたクラスターを区別できませんでした。
この修正により、pool-quota
内のすべてのクエリーに managedBy
ラベルが追加され、各クラスターから一意の結果が生成されるようになりました。その結果、PrometheusRuleFailures
アラートは表示されなくなり、pool-quota
内のすべてのアラートが期待どおりに機能します。
一部のアラートの runbook に間違ったヘルプテキストが表示される
以前は、一部のアラートの runbook マークダウンファイルに間違ったテキストが含まれていたため、一部のアラートの runbook に間違ったヘルプテキストが表示されていました。
この修正により、runbook マークダウンファイル内のテキストが修正され、アラートに正しいヘルプテキストが表示されるようになります。
インストールまたはアップグレード後の PrometheusRuleFailures アラート
以前は、Ceph クォーラム関連のアラートが Prometheus 障害アラートとして認識されず、クエリーがあいまいな結果を生成した場合に通常出される PrometheusRuleFailures
が発生していました。マルチクラスターのシナリオでは、quorum-alert
がどのクラスターから発行されたかを識別できなかったため、クォーラムアラートルールのクエリーは区別できない結果を返していました。
この修正により、クォーラムルール内の各クエリーに一意の managedBy
ラベルが追加され、クエリー結果に、結果を受信したクラスター名に関するデータが含まれるようになりました。その結果、Prometheus の障害は発生せず、クラスターは Ceph mon quorum 関連のアラートをすべてトリガーできるようになります。
2 つの ServiceMonitor、rook-ceph-exporter
と rook-ceph-mgr
のデフォルトの間隔期間が短い
以前は、サービスモニター、rook-ceph-exporter
、および rook-ceph-mgr
に提供される Prometheus scrapePVC の間隔がわずか 5 秒であったため、Prometheus によって収集されたエクスポーターデータによりシステムに負荷がかかっていました。
この修正により、Prometheus のスクレイピングのバランスをとるために間隔が 30 秒に増加され、システム負荷が軽減されます。
アップグレード中に LVM でバックアップされたレガシー OSD がある場合に警告が表示される
以前は、レガシー OSD を備えた OpenShift Data Foundation をバージョン 4.12 から 4.14 にアップグレードすると、すべての OSD がクラッシュループに陥ってダウンすることが確認されました。これにより、データが利用できなくなり、サービスが中断される可能性があります。
この修正により、ローカルボリュームマネージャー (LVM) に基づくレガシー OSD を検出し、アップグレードプロセス中にそのような OSD が存在する場合に警告するチェックが含まれるようになりました。その結果、アップグレード中にレガシー OSD に関する警告が表示され、適切なアクションを実行できるようになります。