5.3.4. 警报规则


OpenShift Container Platform Cluster Monitoring 附带了以下默认配置的警报规则。目前无法添加自定义警报规则。

有些警报规则的名称相同。这是有意设计的。它们会警告同一事件,它们具有不同的阈值,或严重性不同。在禁止规则中,触发较高的严重性时会禁止较低严重性。

有关警报规则的详情,请查看配置文件

警报重要性描述

ClusterMonitoringOperatorErrors

critical

Cluster Monitoring Operator 会出现 X% 错误。

AlertmanagerDown

critical

Alertmanager 已从 Prometheus 目标发现中消失。

ClusterMonitoringOperatorDown

critical

ClusterMonitoringOperator 已从 Prometheus 目标发现中消失。

KubeAPIDown

critical

KubeAPI 已从 Prometheus 目标发现中消失。

KubeControllerManagerDown

critical

kubecontrollermanager 已从 Prometheus 目标发现中消失。

KubeSchedulerDown

critical

kubescheduler 已从 Prometheus 目标发现中消失。

KubeStateMetricsDown

critical

kubeStateMetrics 已从 Prometheus 目标发现中消失。

KubeletDown

critical

kubelet 已从 Prometheus 目标发现中消失。

NodeExporterDown

critical

NodeExporter 已从 Prometheus 目标发现中消失。

PrometheusDown

critical

Prometheus 已从 Prometheus 目标发现中消失。

PrometheusOperatorDown

critical

PrometheusOperator 已从 Prometheus 目标发现中消失。

KubePodCrashLooping

critical

Namespace/Pod (Container) 重启 times / second

KubePodNotReady

critical

Namespace/Pod 未就绪。

KubeDeploymentGenerationMismatch

critical

部署 Namespace/Deployment 生成不匹配

KubeDeploymentReplicasMismatch

critical

部署 Namespace/Deployment 副本不匹配

KubeStatefulSetReplicasMismatch

critical

StatefulSet Namespace/StatefulSet 副本不匹配

KubeStatefulSetGenerationMismatch

critical

StatefulSet Namespace/StatefulSet 生成不匹配

KubeDaemonSetRolloutStuck

critical

只有调度并准备好用于守护进程设置 Namespace/DaemonSet 的所需 pod 的 X%

KubeDaemonSetNotScheduled

warning

没有调度 daemonset Namespace/DaemonSet 的 pod。

KubeDaemonSetMisScheduled

warning

许多 daemonset Namespace/DaemonSet 的 pod 在不应该运行的位置运行。

KubeCronJobRunning

warning

CronJob Namespace/CronJob 需要 1h 以上才能完成。

KubeJobCompletion

warning

Job Namespaces/Job 需要超过 1h 的时间才能完成。

KubeJobFailed

warning

Job Namespaces/Job 无法完成。

KubeCPUOvercommit

warning

Pod 上过量使用的 CPU 资源请求无法容忍节点失败。

KubeMemOvercommit

warning

Pod 上过量使用的内存资源请求,无法容忍节点失败。

KubeCPUOvercommit

warning

命名空间上过量使用的 CPU 资源请求配额。

KubeMemOvercommit

warning

命名空间上过量使用的内存资源请求配额。

alerKubeQuotaExceeded

warning

命名空间 Namespace 中的 X% 的资源已使用。

KubePersistentVolumeUsageCritical

critical

命名空间 Namespace 中的 PersistentVolumeClaim 声明的持久性卷有 X% free。

KubePersistentVolumeFullInFourDays

critical

根据最近的抽样,命名空间 Namespace 中的 PersistentVolumeClaim 声明的持久性卷应该在四天内填满。X 字节当前可用。

KubeNodeNotReady

warning

节点 已就绪一小时以上

KubeVersionMismatch

warning

运行 X 种不同版本的 Kubernetes 组件。

KubeClientErrors

warning

Kubernetes API 服务器客户端的 'Job/Instance' 正在遇到 X% 错误。

KubeClientErrors

warning

Kubernetes API 服务器客户端的 'Job/Instance' 正在遇到 X 错误/ sec'。

KubeletTooManyPods

warning

kubelet 实例正在运行 X pod,接近 110。

KubeAPILatencyHigh

warning

API 服务器具有 99% 的 Verb 资源 延迟 X 秒。

KubeAPILatencyHigh

critical

API 服务器具有 99% 的 Verb 资源 延迟 X 秒。

KubeAPIErrorsHigh

critical

API 服务器针对 X% 的请求出错。

KubeAPIErrorsHigh

warning

API 服务器针对 X% 的请求出错。

KubeClientCertificateExpiration

warning

Kubernetes API 证书将在不到 7 天后过期。

KubeClientCertificateExpiration

critical

Kubernetes API 证书将在不到 1 天后过期。

AlertmanagerConfigInconsistent

critical

Summary:配置不同步.描述:Alertmanager 集群 服务 的实例配置不同步。

AlertmanagerFailedReload

warning

Summary:Alertmanager 的配置重新加载失败。描述:重新加载 Alertmanager 的配置对于 Namespace/Pod 失败。

TargetDown

warning

Summary:目标已停机。描述:X% 的作业 目标为 down。

DeadMansSwitch

none

Summary:通知 DeadMansSwitch.描述:这是一个 DeadMansSwitch,可确保整个 Alerting 管道正常工作。

NodeDiskRunningFull

warning

node-exporter Namespace/Pod 的设备设备在接下来 24 小时内完全运行。

NodeDiskRunningFull

critical

node-exporter Namespace/Pod 的设备设备在接下来 2 小时内完全运行。

PrometheusConfigReloadFailed

warning

Summary:重新载入 Prometheus 配置失败。描述:为 Namespace/Pod 重新载入 Prometheus 配置失败

PrometheusNotificationQueueRunningFull

warning

Summary:Prometheus 的警报通知队列已满运行。描述:Prometheus 的警报通知队列已完全针对 Namespace/Pod 运行

PrometheusErrorSendingAlerts

warning

Summary:从 Prometheus 发送警报时出错。描述:将警报从 Prometheus Namespace/Pod 发送到 Alertmanager 时出错

PrometheusErrorSendingAlerts

critical

Summary:从 Prometheus 发送警报时出错。描述:将警报从 Prometheus Namespace/Pod 发送到 Alertmanager 时出错

PrometheusNotConnectedToAlertmanagers

warning

Summary:Prometheus 没有连接到任何 Alertmanager。描述:Prometheus Namespace/Pod 没有连接到任何 Alertmanager

PrometheusTSDBReloadsFailing

warning

Summary:Prometheus 在从磁盘重新载入数据块时遇到问题。描述:在过去四个小时内,实例中的作业X 重新加载失败。

PrometheusTSDBCompactionsFailing

warning

Summary:Prometheus 在压缩示例块时遇到问题。描述:实例作业过去四小时内出现 X 紧凑故障。

PrometheusTSDBWALCorruptions

warning

Summary:Prometheus write-ahead 日志已被损坏。描述:Instance 中的 作业 具有损坏的 write-ahead 日志(WAL)。

PrometheusNotIngestingSamples

warning

Summary:Prometheus 不捕获示例。描述:Prometheus Namespace/Pod 不嵌套示例。

PrometheusTargetScrapesDuplicate

warning

Summary:Prometheus 有许多示例被拒绝。描述:Namespace/Pod 因为时间戳重复但不同的值而拒绝多个示例

EtcdInsufficientMembers

critical

Etcd 集群 "Job": insufficient members (X).

EtcdNoLeader

critical

Etcd 集群 "Job": member Instance 没有 leader。

EtcdHighNumberOfLeaderChanges

warning

Etcd 集群 "Job": 实例 Instance 在过去一小时内看到 X leader 改变。

EtcdHighNumberOfFailedGRPCRequests

warning

Etcd 集群 "Job":X% 的 GRPC_Method 请求在 etcd 实例 Instance 上失败。

EtcdHighNumberOfFailedGRPCRequests

critical

Etcd 集群 "Job":X% 的 GRPC_Method 请求在 etcd 实例 Instance 上失败。

EtcdGRPCRequestsSlow

critical

Etcd 集群 "Job": 到 GRPC_Method 的 gRPC 请求在 X_s on etcd instance _Instance

EtcdMemberCommunicationSlow

warning

Etcd 集群 "Job": 成员与 To 通信正在 X_s on etcd instance _Instance

EtcdHighNumberOfFailedProposals

warning

Etcd 集群 "Job":X 提议在 etcd 实例 Instance 的最后一小时内失败。

EtcdHighFsyncDurations

warning

Etcd 集群 "Job":99th percentile fync durations 是 X_s on etcd instance _Instance

EtcdHighCommitDurations

warning

Etcd 集群 "Job":99 percentile 的提交持续时间为 X_s on etcd instance _Instance

FdExhaustionClose

warning

Job instance Instance 很快会耗尽其文件描述符

FdExhaustionClose

critical

Job instance Instance 很快会耗尽其文件描述符

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.