1.6.15. モニタリング
-
この更新前は、
KubeNodeNotReadyおよびKubeNodeReadinessFlappingアラートは、cordon (スケジューリング対象からの除外) が実行されたノードを除外しませんでした。その結果、ユーザーはメンテナンス中のノードに関するアラートを受信し、誤検出が発生しました。このリリースにより、cordon が実行されたノードはアラートからフィルターされるようになりました。その結果、メンテナンス中の誤検出の数が減少しました。OCPBUGS-60692 -
この更新前は、
KubeAggregatedAPIErrorsアラートは、API のすべてのインスタンスにわたるエラーの合計に基づいていました。その結果、インスタンスの数が増えるにつれて、ユーザーが警告を受ける可能性が高くなりました。このリリースでは、アラートは API レベルではなくインスタンスレベルで評価されます。その結果、API エラーのしきい値がインスタンス単位ではなくクラスター単位で評価され、早期にしきい値に達してしまっていたことによる誤報の数が減少します。OCPBUGS-60691 -
この更新前は、
StatefulSetコントローラーが Pod の作成に失敗しても、KubeStatefulSetReplicasMismatchアラートは発生しませんでした。その結果、StatefulSetが必要なレプリカ数に達しなかった際、ユーザーに通知されませんでした。このリリースにより、コントローラーが Pod を作成できない場合、アラートが正しく実行されるようになりました。その結果、StatefulSetレプリカが設定された量と一致しない場合は、常にユーザーに警告が表示されます。OCPBUGS-60689 - この更新前は、Cluster Monitoring Operator はセキュアでない Transport Layer Security (TLS) 暗号に関する警告をログに記録していました。これにより、セキュリティーに関する懸念が生じる可能性がありました。このリリースにより、セキュアな TLS 設定が構成されます。その結果、ログから暗号の警告が削除され、Operator が正しくセキュアな TLS 設定を報告するようになります。OCPBUGS-58475
- この更新前は、OpenShift Container Platform Web コンソールのモニタリングダッシュボードで、中間結果に関する誤った想定が原因で、CPU 使用率が大きなマイナスの値で表示されることがありました。その結果、ユーザーには Web コンソールで CPU 使用率がマイナスの値で表示されることがありました。このリリースにより、CPU 使用率の値が適切に計算され、Web コンソール上で CPU 使用率がマイナスの値で表示されなくなりました。OCPBUGS-57481
-
この更新前は、任意の namespace で新しいシークレットが作成または更新されると、そのシークレットが
AlertmanagerConfigリソースで参照されていない場合でも、Alertmanagerはリコンサイルを実行していました。その結果、Prometheus Operator は過剰な API 呼び出しを生成し、コントロールプレーンノードの CPU 使用率が増加しました。このリリースでは、AlertmanagerはAlertmanagerConfigリソースが明示的に参照するシークレットのみをリコンサイルします。(OCPBUGS-56158) この更新前は、機能に影響がない場合でも、Metrics Server は以下の警告を記録していました。
setting componentGlobalsRegistry in SetFallback. We recommend calling componentGlobalsRegistry.Set() right after parsing flags to avoid using feature gates before their final values are set by the flags.このリリースにより、警告メッセージが
metrics-serverログに表示されなくなりました。OCPBUGS-41851-
この更新前は、CPU 消費量が許可された制限を超えて急増した後でも、マルチノードクラスターで
KubeCPUOvercommitアラートがトリガーされませんでした。このリリースでは、アラート式が調整され、マルチノードクラスターが正しく考慮されるようになりました。その結果、KubeCPUOvercommitアラートはこれらのインスタンスの後に正しくトリガーされます。OCPBUGS-35095 -
この更新前は、ユーザーは、
cluster-monitoring-configおよびuser-workload-monitoring-configconfig map に、prometheus、prometheus_replica、またはclusterを Prometheus 外部ラベルとして設定できました。これは推奨されず、クラスターで問題が発生する可能性がありました。このリリースでは、config map はこれらの予約された外部ラベルを受け入れなくなりました。OCPBUGS-18282