1.3.14. 监控

PDF

1.3.14.1. 对规则更改的警报

OpenShift Container Platform 4.7 包含以下警报规则更改：

例 1.1. 对规则更改的警报

添加了 AlertmanagerClusterCrashlooping 警报。如果集群中至少有一半 Alertmanager 实例处于 crashlooping 状态时，会发出关键警报通知。
添加 AlertmanagerClusterDown 警报。如果集群中至少有一半 Alertmanager 实例停机，会发出关键警报通知。
添加 AlertmanagerClusterFailedToSendAlerts 警报。如果集群中的所有 Alertmanager 实例都无法发送通知，会发出关键警报通知。
添加 AlertmanagerFailedToSendAlerts 警报。如果 Alertmanager 实例无法发送通知，发出警告警报通知。
添加了 etcdBackendQuotaLowSpace 警报。如果 etcd 集群的数据库大小超过 etcd 实例上定义的配额，会发出关键警报通知。
添加了 etcdExcessiveDatabaseGrowth 警报。如果发现有大量的 etcd 写入，导致 etcd 实例在四小时的时间内数据库大小增加了 50%，会发送警告警报通知。
添加了 etcdHighFsyncDurations 警报。如果一个 etcd 集群的 99% 的 fsync 持续时间都太高时，会发送关键警报通知。
添加了 KubeletClientCertificateRenewalErrors 警报。如果 Kubelet 无法更新其客户端证书，发送警告警报通知。
添加了 KubeletServerCertificateRenewalErrors 警报。如果 Kubelet 无法更新其服务器证书，发送警告警报通知。
添加了 NTODegraded 警报。如果 Node Tuning Operator 降级，发送警告警报通知。
添加了 NTOPodsNotReady 警报。如果节点上的特定 pod 没有就绪，发送警告警报通知。
添加了 PrometheusOperatorNotReady 警报。如果 Prometheus Operator 实例未就绪，发送警告警报通知。
添加了 PrometheusOperatorRejectedResources 警报。如果 Prometheus Operator 拒绝特定资源，发送警告警报通知。
添加了 PrometheusOperatorSyncFailed 警报。如果 Prometheus Operator 控制器无法协调特定对象，发送警告警报通知。
添加了 PrometheusTargetLimitHit 警报。如果因为有些提取配置超过目标限制，Prometheus 放弃了目标，发送警告警报通知。
添加了 ThanosSidecarPrometheusDown 警报。如果 Thanos sidecar 无法连接到 Prometheus，发送关键警报通知。
添加了 ThanosSidecarUnhealthy 警报。如果在指定时间段内 Thanos sidecar 不健康，发送关键警报通知。
更新了 NodeClockNotSynchronising 警报，以防止在使用 chrony 时间服务 chronyd 的环境中出现假的正数。
对 NodeNetworkReceiveErrs 警报进行了更新，以确保当只报告少量错误时，警报不会触发。该规则现在使用错误与数据包总数的比例，而不是错误的绝对数量。
对 NodeNetworkTransmitErrs 警报进行了更新，以确保当只报告少量错误时，警报不会触发。该规则现在使用错误与数据包总数的比例，而不是错误的绝对数量。
带有严重性级别 warning 和 critical 的 etcdHighNumberOfFailedHTTPRequests 警告会被删除。如果 etcd 实例上有高百分比的 HTTP 请求失败，这些警报就会触发。

注意

红帽不保证指标、记录规则或警报规则的向后兼容。

1.3.14. 监控

1.3.14.1. 对规则更改的警报

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links