1.3.14. 监控
1.3.14.1. 对规则更改的警报
OpenShift Container Platform 4.7 包含以下警报规则更改:
例 1.1. 对规则更改的警报
-
添加了
AlertmanagerClusterCrashlooping
警报。如果集群中至少有一半 Alertmanager 实例处于 crashlooping 状态时,会发出关键警报通知。 -
添加
AlertmanagerClusterDown
警报。如果集群中至少有一半 Alertmanager 实例停机,会发出关键警报通知。 -
添加
AlertmanagerClusterFailedToSendAlerts
警报。如果集群中的所有 Alertmanager 实例都无法发送通知,会发出关键警报通知。 -
添加
AlertmanagerFailedToSendAlerts
警报。如果 Alertmanager 实例无法发送通知,发出警告警报通知。 -
添加了
etcdBackendQuotaLowSpace
警报。如果 etcd 集群的数据库大小超过 etcd 实例上定义的配额,会发出关键警报通知。 -
添加了
etcdExcessiveDatabaseGrowth
警报。如果发现有大量的 etcd 写入,导致 etcd 实例在四小时的时间内数据库大小增加了 50%,会发送警告警报通知。 -
添加了
etcdHighFsyncDurations
警报。如果一个 etcd 集群的 99% 的fsync
持续时间都太高时,会发送关键警报通知。 -
添加了
KubeletClientCertificateRenewalErrors
警报。如果 Kubelet 无法更新其客户端证书,发送警告警报通知。 -
添加了
KubeletServerCertificateRenewalErrors
警报。如果 Kubelet 无法更新其服务器证书,发送警告警报通知。 -
添加了
NTODegraded
警报。如果 Node Tuning Operator 降级,发送警告警报通知。 -
添加了
NTOPodsNotReady
警报。如果节点上的特定 pod 没有就绪,发送警告警报通知。 -
添加了
PrometheusOperatorNotReady
警报。如果 Prometheus Operator 实例未就绪,发送警告警报通知。 -
添加了
PrometheusOperatorRejectedResources
警报。如果 Prometheus Operator 拒绝特定资源,发送警告警报通知。 -
添加了
PrometheusOperatorSyncFailed
警报。如果 Prometheus Operator 控制器无法协调特定对象,发送警告警报通知。 -
添加了
PrometheusTargetLimitHit
警报。如果因为有些提取配置超过目标限制,Prometheus 放弃了目标,发送警告警报通知。 -
添加了
ThanosSidecarPrometheusDown
警报。如果 Thanos sidecar 无法连接到 Prometheus,发送关键警报通知。 -
添加了
ThanosSidecarUnhealthy
警报。如果在指定时间段内 Thanos sidecar 不健康,发送关键警报通知。 -
更新了
NodeClockNotSynchronising
警报,以防止在使用 chrony 时间服务chronyd
的环境中出现假的正数。 -
对
NodeNetworkReceiveErrs
警报进行了更新,以确保当只报告少量错误时,警报不会触发。该规则现在使用错误与数据包总数的比例,而不是错误的绝对数量。 -
对
NodeNetworkTransmitErrs
警报进行了更新,以确保当只报告少量错误时,警报不会触发。该规则现在使用错误与数据包总数的比例,而不是错误的绝对数量。 -
带有严重性级别 warning 和 critical 的
etcdHighNumberOfFailedHTTPRequests
警告会被删除。如果 etcd 实例上有高百分比的 HTTP 请求失败,这些警报就会触发。
注意
红帽不保证指标、记录规则或警报规则的向后兼容。