5.3.4. 警报规则
OpenShift Container Platform Cluster Monitoring 附带了以下默认配置的警报规则。目前无法添加自定义警报规则。
有些警报规则的名称相同。这是有意设计的。它们会警告同一事件,它们具有不同的阈值,或严重性不同。在禁止规则中,触发较高的严重性时会禁止较低严重性。
有关警报规则的详情,请查看配置文件。
警报 | 重要性 | 描述 |
---|---|---|
|
| Cluster Monitoring Operator 会出现 X% 错误。 |
|
| Alertmanager 已从 Prometheus 目标发现中消失。 |
|
| ClusterMonitoringOperator 已从 Prometheus 目标发现中消失。 |
|
| KubeAPI 已从 Prometheus 目标发现中消失。 |
|
| kubecontrollermanager 已从 Prometheus 目标发现中消失。 |
|
| kubescheduler 已从 Prometheus 目标发现中消失。 |
|
| kubeStateMetrics 已从 Prometheus 目标发现中消失。 |
|
| kubelet 已从 Prometheus 目标发现中消失。 |
|
| NodeExporter 已从 Prometheus 目标发现中消失。 |
|
| Prometheus 已从 Prometheus 目标发现中消失。 |
|
| PrometheusOperator 已从 Prometheus 目标发现中消失。 |
|
| Namespace/Pod (Container) 重启 times / second |
|
| Namespace/Pod 未就绪。 |
|
| 部署 Namespace/Deployment 生成不匹配 |
|
| 部署 Namespace/Deployment 副本不匹配 |
|
| StatefulSet Namespace/StatefulSet 副本不匹配 |
|
| StatefulSet Namespace/StatefulSet 生成不匹配 |
|
| 只有调度并准备好用于守护进程设置 Namespace/DaemonSet 的所需 pod 的 X% |
|
| 没有调度 daemonset Namespace/DaemonSet 的 pod。 |
|
| 许多 daemonset Namespace/DaemonSet 的 pod 在不应该运行的位置运行。 |
|
| CronJob Namespace/CronJob 需要 1h 以上才能完成。 |
|
| Job Namespaces/Job 需要超过 1h 的时间才能完成。 |
|
| Job Namespaces/Job 无法完成。 |
|
| Pod 上过量使用的 CPU 资源请求无法容忍节点失败。 |
|
| Pod 上过量使用的内存资源请求,无法容忍节点失败。 |
|
| 命名空间上过量使用的 CPU 资源请求配额。 |
|
| 命名空间上过量使用的内存资源请求配额。 |
|
| 命名空间 Namespace 中的 X% 的资源已使用。 |
|
| 命名空间 Namespace 中的 PersistentVolumeClaim 声明的持久性卷有 X% free。 |
|
| 根据最近的抽样,命名空间 Namespace 中的 PersistentVolumeClaim 声明的持久性卷应该在四天内填满。X 字节当前可用。 |
|
| 节点 已就绪一小时以上 |
|
| 运行 X 种不同版本的 Kubernetes 组件。 |
|
| Kubernetes API 服务器客户端的 'Job/Instance' 正在遇到 X% 错误。 |
|
| Kubernetes API 服务器客户端的 'Job/Instance' 正在遇到 X 错误/ sec'。 |
|
| kubelet 实例正在运行 X pod,接近 110。 |
|
| API 服务器具有 99% 的 Verb 资源 延迟 X 秒。 |
|
| API 服务器具有 99% 的 Verb 资源 延迟 X 秒。 |
|
| API 服务器针对 X% 的请求出错。 |
|
| API 服务器针对 X% 的请求出错。 |
|
| Kubernetes API 证书将在不到 7 天后过期。 |
|
| Kubernetes API 证书将在不到 1 天后过期。 |
|
|
Summary:配置不同步.描述:Alertmanager 集群 |
|
| Summary:Alertmanager 的配置重新加载失败。描述:重新加载 Alertmanager 的配置对于 Namespace/Pod 失败。 |
|
| Summary:目标已停机。描述:X% 的作业 目标为 down。 |
|
| Summary:通知 DeadMansSwitch.描述:这是一个 DeadMansSwitch,可确保整个 Alerting 管道正常工作。 |
|
| node-exporter Namespace/Pod 的设备设备在接下来 24 小时内完全运行。 |
|
| node-exporter Namespace/Pod 的设备设备在接下来 2 小时内完全运行。 |
|
| Summary:重新载入 Prometheus 配置失败。描述:为 Namespace/Pod 重新载入 Prometheus 配置失败 |
|
| Summary:Prometheus 的警报通知队列已满运行。描述:Prometheus 的警报通知队列已完全针对 Namespace/Pod 运行 |
|
| Summary:从 Prometheus 发送警报时出错。描述:将警报从 Prometheus Namespace/Pod 发送到 Alertmanager 时出错 |
|
| Summary:从 Prometheus 发送警报时出错。描述:将警报从 Prometheus Namespace/Pod 发送到 Alertmanager 时出错 |
|
| Summary:Prometheus 没有连接到任何 Alertmanager。描述:Prometheus Namespace/Pod 没有连接到任何 Alertmanager |
|
| Summary:Prometheus 在从磁盘重新载入数据块时遇到问题。描述:在过去四个小时内,实例中的作业有 X 重新加载失败。 |
|
| Summary:Prometheus 在压缩示例块时遇到问题。描述:实例的作业过去四小时内出现 X 紧凑故障。 |
|
| Summary:Prometheus write-ahead 日志已被损坏。描述:Instance 中的 作业 具有损坏的 write-ahead 日志(WAL)。 |
|
| Summary:Prometheus 不捕获示例。描述:Prometheus Namespace/Pod 不嵌套示例。 |
|
| Summary:Prometheus 有许多示例被拒绝。描述:Namespace/Pod 因为时间戳重复但不同的值而拒绝多个示例 |
|
| Etcd 集群 "Job": insufficient members (X). |
|
| Etcd 集群 "Job": member Instance 没有 leader。 |
|
| Etcd 集群 "Job": 实例 Instance 在过去一小时内看到 X leader 改变。 |
|
| Etcd 集群 "Job":X% 的 GRPC_Method 请求在 etcd 实例 Instance 上失败。 |
|
| Etcd 集群 "Job":X% 的 GRPC_Method 请求在 etcd 实例 Instance 上失败。 |
|
| Etcd 集群 "Job": 到 GRPC_Method 的 gRPC 请求在 X_s on etcd instance _Instance。 |
|
| Etcd 集群 "Job": 成员与 To 通信正在 X_s on etcd instance _Instance。 |
|
| Etcd 集群 "Job":X 提议在 etcd 实例 Instance 的最后一小时内失败。 |
|
| Etcd 集群 "Job":99th percentile fync durations 是 X_s on etcd instance _Instance。 |
|
| Etcd 集群 "Job":99 percentile 的提交持续时间为 X_s on etcd instance _Instance。 |
|
| Job instance Instance 很快会耗尽其文件描述符 |
|
| Job instance Instance 很快会耗尽其文件描述符 |