5.3.4. 警报规则

OpenShift Container Platform Cluster Monitoring 附带了以下默认配置的警报规则。目前无法添加自定义警报规则。

有些警报规则的名称相同。这是有意设计的。它们会警告同一事件，它们具有不同的阈值，或严重性不同。在禁止规则中，触发较高的严重性时会禁止较低严重性。

有关警报规则的详情，请查看配置文件。

警报	重要性	描述
`ClusterMonitoringOperatorErrors`	`critical`	Cluster Monitoring Operator 会出现 X% 错误。
`AlertmanagerDown`	`critical`	Alertmanager 已从 Prometheus 目标发现中消失。
`ClusterMonitoringOperatorDown`	`critical`	ClusterMonitoringOperator 已从 Prometheus 目标发现中消失。
`KubeAPIDown`	`critical`	KubeAPI 已从 Prometheus 目标发现中消失。
`KubeControllerManagerDown`	`critical`	kubecontrollermanager 已从 Prometheus 目标发现中消失。
`KubeSchedulerDown`	`critical`	kubescheduler 已从 Prometheus 目标发现中消失。
`KubeStateMetricsDown`	`critical`	kubeStateMetrics 已从 Prometheus 目标发现中消失。
`KubeletDown`	`critical`	kubelet 已从 Prometheus 目标发现中消失。
`NodeExporterDown`	`critical`	NodeExporter 已从 Prometheus 目标发现中消失。
`PrometheusDown`	`critical`	Prometheus 已从 Prometheus 目标发现中消失。
`PrometheusOperatorDown`	`critical`	PrometheusOperator 已从 Prometheus 目标发现中消失。
`KubePodCrashLooping`	`critical`	Namespace/Pod (Container) 重启 times / second
`KubePodNotReady`	`critical`	Namespace/Pod 未就绪。
`KubeDeploymentGenerationMismatch`	`critical`	部署 Namespace/Deployment 生成不匹配
`KubeDeploymentReplicasMismatch`	`critical`	部署 Namespace/Deployment 副本不匹配
`KubeStatefulSetReplicasMismatch`	`critical`	StatefulSet Namespace/StatefulSet 副本不匹配
`KubeStatefulSetGenerationMismatch`	`critical`	StatefulSet Namespace/StatefulSet 生成不匹配
`KubeDaemonSetRolloutStuck`	`critical`	只有调度并准备好用于守护进程设置 Namespace/DaemonSet 的所需 pod 的 X%
`KubeDaemonSetNotScheduled`	`warning`	没有调度 daemonset Namespace/DaemonSet 的 pod。
`KubeDaemonSetMisScheduled`	`warning`	许多 daemonset Namespace/DaemonSet 的 pod 在不应该运行的位置运行。
`KubeCronJobRunning`	`warning`	CronJob Namespace/CronJob 需要 1h 以上才能完成。
`KubeJobCompletion`	`warning`	Job Namespaces/Job 需要超过 1h 的时间才能完成。
`KubeJobFailed`	`warning`	Job Namespaces/Job 无法完成。
`KubeCPUOvercommit`	`warning`	Pod 上过量使用的 CPU 资源请求无法容忍节点失败。
`KubeMemOvercommit`	`warning`	Pod 上过量使用的内存资源请求，无法容忍节点失败。
`KubeCPUOvercommit`	`warning`	命名空间上过量使用的 CPU 资源请求配额。
`KubeMemOvercommit`	`warning`	命名空间上过量使用的内存资源请求配额。
`alerKubeQuotaExceeded`	`warning`	命名空间 Namespace 中的 X% 的资源已使用。
`KubePersistentVolumeUsageCritical`	`critical`	命名空间 Namespace 中的 PersistentVolumeClaim 声明的持久性卷有 X% free。
`KubePersistentVolumeFullInFourDays`	`critical`	根据最近的抽样，命名空间 Namespace 中的 PersistentVolumeClaim 声明的持久性卷应该在四天内填满。X 字节当前可用。
`KubeNodeNotReady`	`warning`	节点已就绪一小时以上
`KubeVersionMismatch`	`warning`	运行 X 种不同版本的 Kubernetes 组件。
`KubeClientErrors`	`warning`	Kubernetes API 服务器客户端的 'Job/Instance' 正在遇到 X% 错误。
`KubeClientErrors`	`warning`	Kubernetes API 服务器客户端的 'Job/Instance' 正在遇到 X 错误/ sec'。
`KubeletTooManyPods`	`warning`	kubelet 实例正在运行 X pod，接近 110。
`KubeAPILatencyHigh`	`warning`	API 服务器具有 99% 的 Verb 资源延迟 X 秒。
`KubeAPILatencyHigh`	`critical`	API 服务器具有 99% 的 Verb 资源延迟 X 秒。
`KubeAPIErrorsHigh`	`critical`	API 服务器针对 X% 的请求出错。
`KubeAPIErrorsHigh`	`warning`	API 服务器针对 X% 的请求出错。
`KubeClientCertificateExpiration`	`warning`	Kubernetes API 证书将在不到 7 天后过期。
`KubeClientCertificateExpiration`	`critical`	Kubernetes API 证书将在不到 1 天后过期。
`AlertmanagerConfigInconsistent`	`critical`	Summary：配置不同步.描述：Alertmanager 集群 `服务` 的实例配置不同步。
`AlertmanagerFailedReload`	`warning`	Summary：Alertmanager 的配置重新加载失败。描述：重新加载 Alertmanager 的配置对于 Namespace/Pod 失败。
`TargetDown`	`warning`	Summary：目标已停机。描述：X% 的作业目标为 down。
`DeadMansSwitch`	`none`	Summary：通知 DeadMansSwitch.描述：这是一个 DeadMansSwitch，可确保整个 Alerting 管道正常工作。
`NodeDiskRunningFull`	`warning`	node-exporter Namespace/Pod 的设备设备在接下来 24 小时内完全运行。
`NodeDiskRunningFull`	`critical`	node-exporter Namespace/Pod 的设备设备在接下来 2 小时内完全运行。
`PrometheusConfigReloadFailed`	`warning`	Summary：重新载入 Prometheus 配置失败。描述：为 Namespace/Pod 重新载入 Prometheus 配置失败
`PrometheusNotificationQueueRunningFull`	`warning`	Summary：Prometheus 的警报通知队列已满运行。描述：Prometheus 的警报通知队列已完全针对 Namespace/Pod 运行
`PrometheusErrorSendingAlerts`	`warning`	Summary：从 Prometheus 发送警报时出错。描述：将警报从 Prometheus Namespace/Pod 发送到 Alertmanager 时出错
`PrometheusErrorSendingAlerts`	`critical`	Summary：从 Prometheus 发送警报时出错。描述：将警报从 Prometheus Namespace/Pod 发送到 Alertmanager 时出错
`PrometheusNotConnectedToAlertmanagers`	`warning`	Summary：Prometheus 没有连接到任何 Alertmanager。描述：Prometheus Namespace/Pod 没有连接到任何 Alertmanager
`PrometheusTSDBReloadsFailing`	`warning`	Summary：Prometheus 在从磁盘重新载入数据块时遇到问题。描述：在过去四个小时内，实例中的作业有 X 重新加载失败。
`PrometheusTSDBCompactionsFailing`	`warning`	Summary：Prometheus 在压缩示例块时遇到问题。描述：实例的作业过去四小时内出现 X 紧凑故障。
`PrometheusTSDBWALCorruptions`	`warning`	Summary：Prometheus write-ahead 日志已被损坏。描述：Instance 中的作业具有损坏的 write-ahead 日志(WAL)。
`PrometheusNotIngestingSamples`	`warning`	Summary：Prometheus 不捕获示例。描述：Prometheus Namespace/Pod 不嵌套示例。
`PrometheusTargetScrapesDuplicate`	`warning`	Summary：Prometheus 有许多示例被拒绝。描述：Namespace/Pod 因为时间戳重复但不同的值而拒绝多个示例
`EtcdInsufficientMembers`	`critical`	Etcd 集群 "Job": insufficient members (X).
`EtcdNoLeader`	`critical`	Etcd 集群 "Job": member Instance 没有 leader。
`EtcdHighNumberOfLeaderChanges`	`warning`	Etcd 集群 "Job": 实例 Instance 在过去一小时内看到 X leader 改变。
`EtcdHighNumberOfFailedGRPCRequests`	`warning`	Etcd 集群 "Job":X% 的 GRPC_Method 请求在 etcd 实例 Instance 上失败。
`EtcdHighNumberOfFailedGRPCRequests`	`critical`	Etcd 集群 "Job":X% 的 GRPC_Method 请求在 etcd 实例 Instance 上失败。
`EtcdGRPCRequestsSlow`	`critical`	Etcd 集群 "Job": 到 GRPC_Method 的 gRPC 请求在 X_s on etcd instance _Instance。
`EtcdMemberCommunicationSlow`	`warning`	Etcd 集群 "Job": 成员与 To 通信正在 X_s on etcd instance _Instance。
`EtcdHighNumberOfFailedProposals`	`warning`	Etcd 集群 "Job":X 提议在 etcd 实例 Instance 的最后一小时内失败。
`EtcdHighFsyncDurations`	`warning`	Etcd 集群 "Job":99th percentile fync durations 是 X_s on etcd instance _Instance。
`EtcdHighCommitDurations`	`warning`	Etcd 集群 "Job":99 percentile 的提交持续时间为 X_s on etcd instance _Instance。
`FdExhaustionClose`	`warning`	Job instance Instance 很快会耗尽其文件描述符
`FdExhaustionClose`	`critical`	Job instance Instance 很快会耗尽其文件描述符

5.3.4. 警报规则

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links