第 13 章日志记录警报

13.1. 默认日志记录警报

日志记录警报作为 Red Hat OpenShift Logging Operator 安装的一部分安装。警报取决于日志收集和日志存储后端导出的指标。如果在安装 Red Hat OpenShift Logging Operator 时选择 Enable operator recommended cluster monitoring 选项来启用这些指标。

默认日志记录警报发送到 openshift-monitoring 命名空间中的 OpenShift Container Platform 监控堆栈 Alertmanager，除非您禁用了本地 Alertmanager 实例。

13.1.1. 在 Administrator 和 Developer 视角中访问 Alerting UI

Alerting UI 可通过 OpenShift Container Platform Web 控制台的 Administrator 视角和 Developer 视角访问。

在 Administrator 视角中，进入 Observe Alerting。此视角中的 Alerting UI 中的三个主要页面是 Alerts、Silences 和 Alerting 规则 页面。

在 Developer 视角中，进入 Observe <project_name> Alerts。在这个视角中，警报、静默和警报规则都通过 Alerts 页面管理。Alerts 页面中显示的结果特定于所选项目。

注意

在 Developer 视角中，您可以从可在 Project: <project_name> 列表中访问的核心 OpenShift Container Platform 和用户定义的项目中选择。但是，如果您没有以集群管理员身份登录，则不会显示与 OpenShift Container Platform 核心项目相关的警报、静默和警报规则。

13.1.2. 日志记录收集器警报

在日志记录 5.8 及更新的版本中，Red Hat OpenShift Logging Operator 生成以下警报。您可以在 OpenShift Container Platform Web 控制台中查看这些警报。

警报名称	消息	描述	重要性
CollectorNodeDown	Prometheus 无法刮除（scrape）`namespace`/`pod` 收集器组件超过 10m。	无法刮除收集器。	Critical
CollectorHighErrorRate	`value`% 的记录会导致 `namespace`/`pod` 错误。	`namespace`/`pod` 收集器组件错误高。	Critical
CollectorVeryHighErrorRate	`value`% 的记录会导致 `namespace`/`pod` 错误。	`namespace`/`pod` 收集器错误非常高。	Critical

13.1.3. Vector 收集器警报

在日志记录 5.7 及更新的版本中，向量收集器生成以下警报。您可以在 OpenShift Container Platform Web 控制台中查看这些警报。

表 13.1. Vector 收集器警报
警报	消息	描述	重要性
`CollectorHighErrorRate`	`<value> of records have resulted in an error by vector <instance>.`	在前 15 分钟内，向量输出错误的数量很高，默认为 10。	Warning
`CollectorNodeDown`	`Prometheus could not scrape vector <instance> for more than 10m.`	向量报告 Prometheus 无法提取特定的 Vector 实例。	Critical
`CollectorVeryHighErrorRate`	`<value> of records have resulted in an error by vector <instance>.`	向量组件错误的数量很高，默认为在前 15 分钟内有 25 个。	Critical
`FluentdQueueLengthIncreasing`	`In the last 1h, fluentd <instance> buffer queue length constantly increased more than 1.Current value is <value>.`	Fluentd 报告队列大小正在增加。	Warning

13.1.4. Fluentd 收集器警报

以下警报由旧的 Fluentd 日志收集器生成。您可以在 OpenShift Container Platform Web 控制台中查看这些警报。

表 13.2. Fluentd 收集器警报
警报	消息	描述	重要性
`FluentDHighErrorRate`	`<value> of records have resulted in an error by fluentd <instance>.`	FluentD 输出错误数量很高，在前 15 分钟中默认超过 10。	Warning
`FluentdNodeDown`	`Prometheus could not scrape fluentd <instance> for more than 10m.`	Fluentd 报告 Prometheus 可能无法抓取特定的 Fluentd 实例。	Critical
`FluentdQueueLengthIncreasing`	`In the last 1h, fluentd <instance> buffer queue length constantly increased more than 1.Current value is <value>.`	Fluentd 报告队列大小正在增加。	Warning
`FluentDVeryHighErrorRate`	`<value> of records have resulted in an error by fluentd <instance>.`	FluentD 输出错误的数量非常大，在之前的 15 分钟中，默认情况下超过 25 个。	Critical

13.1.5. Elasticsearch 警报规则

您可以在 OpenShift Container Platform Web 控制台中查看这些警报规则。

表 13.3. 警报规则
警报	描述	重要性
`ElasticsearchClusterNotHealthy`	集群健康状态处于 RED 至少 2 分钟。集群不接受写操作，分片可能缺失，或者 master 节点尚未选定。	Critical
`ElasticsearchClusterNotHealthy`	集群健康状态为 YELLOW 至少 20 分钟。某些分片副本尚未分配。	Warning
`ElasticsearchDiskSpaceRunningLow`	集群预期在以后的 6 小时内处于磁盘空间之外。	Critical
`ElasticsearchHighFileDescriptorUsage`	在下一个小时内，集群预计会在下一个小时内消耗掉所有文件描述符。	Warning
`ElasticsearchJVMHeapUseHigh`	指定节点上的 JVM 堆使用率很高。	警报
`ElasticsearchNodeDiskWatermarkReached`	由于可用磁盘空间较低，指定节点达到低水位线。分片无法再分配给此节点。应该考虑向节点添加更多磁盘空间。	info
`ElasticsearchNodeDiskWatermarkReached`	由于可用磁盘空间较低，指定节点达到高水位线。若有可能，某些分片将重新分配到其他节点。确保向节点添加更多磁盘空间，或者丢弃分配给此节点的旧索引。	Warning
`ElasticsearchNodeDiskWatermarkReached`	由于可用磁盘空间不足，指定节点达到洪水水位线。每个在这个节点上分配了分片的索引都会强制使用只读块。当磁盘使用低于高水位线时，索引块必须手动发布。	Critical
`ElasticsearchJVMHeapUseHigh`	指定节点上的 JVM 堆使用率太高。	警报
`ElasticsearchWriteRequestsRejectionJumps`	Elasticsearch 在指定节点上的写入增加。此节点可能无法跟上索引速度。	Warning
`AggregatedLoggingSystemCPUHigh`	该系统在指定节点上使用的 CPU 太高。	警报
`ElasticsearchProcessCPUHigh`	Elasticsearch 在指定节点上使用的 CPU 太高。	警报

13.1.6. 其他资源

修改核心平台警报规则

第 13 章日志记录警报

13.1. 默认日志记录警报

13.1.1. 在 Administrator 和 Developer 视角中访问 Alerting UI

13.1.2. 日志记录收集器警报

13.1.3. Vector 收集器警报

13.1.4. Fluentd 收集器警报

13.1.5. Elasticsearch 警报规则

13.1.6. 其他资源

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

第 13 章 日志记录警报

13.1. 默认日志记录警报

13.1.1. 在 Administrator 和 Developer 视角中访问 Alerting UI

13.1.2. 日志记录收集器警报

13.1.3. Vector 收集器警报

13.1.4. Fluentd 收集器警报

13.1.5. Elasticsearch 警报规则

13.1.6. 其他资源

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

第 13 章日志记录警报