第 11 章 日志记录警报
11.1. 默认日志记录警报
日志记录警报作为 Red Hat OpenShift Logging Operator 安装的一部分安装。警报取决于日志收集和日志存储后端导出的指标。如果在安装 Red Hat OpenShift Logging Operator 时选择 Enable operator recommended cluster monitoring 选项来启用这些指标。有关安装日志记录 Operator 的更多信息,请参阅使用 Web 控制台安装日志记录。
默认日志记录警报发送到 openshift-monitoring
命名空间中的 OpenShift Container Platform 监控堆栈 Alertmanager,除非您禁用了本地 Alertmanager 实例。
11.1.1. 在 Administrator 和 Developer 视角中访问 Alerting UI
Alerting UI 可通过 OpenShift Container Platform Web 控制台的 Administrator 视角和 Developer 视角访问。
-
在 Administrator 视角中,进入 Observe
Alerting。此视角中的 Alerting UI 中的三个主要页面是 Alerts、Silences 和 Alerting 规则 页面。
-
在 Developer 视角中,进入 Observe
<project_name> Alerts。在这个视角中,警报、静默和警报规则都通过 Alerts 页面管理。Alerts 页面中显示的结果特定于所选项目。
在 Developer 视角中,您可以从可在 Project: <project_name> 列表中访问的核心 OpenShift Container Platform 和用户定义的项目中选择。但是,如果您没有以集群管理员身份登录,则不会显示与 OpenShift Container Platform 核心项目相关的警报、静默和警报规则。
11.1.2. 日志记录收集器警报
在日志记录 5.8 及更新的版本中,Red Hat OpenShift Logging Operator 生成以下警报。您可以在 OpenShift Container Platform Web 控制台中查看这些警报。
警报名称 | 消息 | 描述 | 重要性 |
---|---|---|---|
CollectorNodeDown |
Prometheus 无法刮除(scrape) | 无法刮除收集器。 | Critical |
CollectorHighErrorRate |
|
| Critical |
CollectorVeryHighErrorRate |
|
| Critical |
11.1.3. Vector 收集器警报
在日志记录 5.7 及更新的版本中,向量收集器生成以下警报。您可以在 OpenShift Container Platform Web 控制台中查看这些警报。
警报 | 消息 | 描述 | 重要性 |
---|---|---|---|
|
| 在前 15 分钟内,向量输出错误的数量很高,默认为 10。 | Warning |
|
| 向量报告 Prometheus 无法提取特定的 Vector 实例。 | Critical |
|
| 向量组件错误的数量很高,默认为在前 15 分钟内有 25 个。 | Critical |
|
| Fluentd 报告队列大小正在增加。 | Warning |
11.1.4. Fluentd 收集器警报
以下警报由旧的 Fluentd 日志收集器生成。您可以在 OpenShift Container Platform Web 控制台中查看这些警报。
警报 | 消息 | 描述 | 重要性 |
---|---|---|---|
|
| FluentD 输出错误数量很高,在前 15 分钟中默认超过 10。 | Warning |
|
| Fluentd 报告 Prometheus 可能无法抓取特定的 Fluentd 实例。 | Critical |
|
| Fluentd 报告队列大小正在增加。 | Warning |
|
| FluentD 输出错误的数量非常大,在之前的 15 分钟中,默认情况下超过 25 个。 | Critical |
11.1.5. Elasticsearch 警报规则
您可以在 OpenShift Container Platform Web 控制台中查看这些警报规则。
警报 | 描述 | 重要性 |
---|---|---|
| 集群健康状态处于 RED 至少 2 分钟。集群不接受写操作,分片可能缺失,或者master 节点尚未选定。 | Critical |
| 集群健康状态为 YELLOW 至少 20 分钟。某些分片副本尚未分配。 | Warning |
| 集群预期在以后的 6 小时内处于磁盘空间之外。 | Critical |
| 在下一个小时内,集群预计会在下一个小时内消耗掉所有文件描述符。 | Warning |
| 指定节点上的 JVM 堆使用率很高。 | 警报 |
| 由于可用磁盘空间较低,指定节点达到低水位线。分片无法再分配给此节点。应该考虑向节点添加更多磁盘空间。 | info |
| 由于可用磁盘空间较低,指定节点达到高水位线。若有可能,某些分片将重新分配到其他节点。确保向节点添加更多磁盘空间,或者丢弃分配给此节点的旧索引。 | Warning |
| 由于可用磁盘空间不足,指定节点达到洪水水位线。每个在这个节点上分配了分片的索引都会强制使用只读块。当磁盘使用低于高水位线时,索引块必须手动发布。 | Critical |
| 指定节点上的 JVM 堆使用率太高。 | 警报 |
| Elasticsearch 在指定节点上的写入增加。此节点可能无法跟上索引速度。 | Warning |
| 该系统在指定节点上使用的 CPU 太高。 | 警报 |
| Elasticsearch 在指定节点上使用的 CPU 太高。 | 警报 |