第 12 章 日志记录警报
12.1. 默认日志记录警报
日志记录警报作为 Cluster Logging Operator 安装的一部分安装。警报取决于日志收集和日志存储后端导出的指标。如果在安装 Cluster Logging Operator 时选择 Enable operator recommended cluster monitoring 选项来启用这些指标。有关安装日志记录 Operator 的更多信息,请参阅使用 Web 控制台为 Red Hat OpenShift 安装 日志记录子系统。
默认日志记录警报发送到 openshift-monitoring
命名空间中的 Red Hat OpenShift Service on AWS 监控堆栈 Alertmanager,除非您禁用了本地 Alertmanager 实例。
12.1.1. 在 Administrator 和 Developer 视角中访问 Alerting UI
Alerting UI 可通过 Red Hat OpenShift Service on AWS Web 控制台中的 Administrator 视角和 Developer 视角访问。
-
在 Administrator 视角中,选择 Observe
Alerting。在此视角中,Alerting UI 有三个主要页面,即 Alerts、Silences 和 Alerting Rules 页面。
-
在 Developer 视角中,选择 Observe
<project_name> Alerts。在这个视角中,警报、静默和警报规则都通过 Alerts 页面管理。Alerts 页面中显示的结果特定于所选项目。
在 Developer 视角中,您可以从可以在 Project: 列表中访问的 Red Hat OpenShift Service on AWS 核心项目和用户定义的项目中选择。但是,如果您没有以集群管理员身份登录,则不会显示与 Red Hat OpenShift Service on AWS 核心相关的警报、静默和警报规则。
12.1.2. Vector 收集器警报
在日志记录 5.7 及更新的版本中,向量收集器生成以下警报。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些警报。
警报 | 消息 | 描述 | 重要性 |
---|---|---|---|
|
| 在前 15 分钟内,向量输出错误的数量很高,默认为 10。 | Warning |
|
| 向量报告 Prometheus 无法提取特定的 Vector 实例。 | Critical |
|
| 向量组件错误的数量很高,在前 15 分钟内默认为 25 个。 | Critical |
|
| Fluentd 报告队列大小正在增加。 | Warning |
12.1.3. Fluentd 收集器警报
以下警报由旧的 Fluentd 日志收集器生成。您可以在 Red Hat OpenShift Service on AWS Web 控制台中查看这些警报。
警报 | 消息 | 描述 | 重要性 |
---|---|---|---|
|
| FluentD 输出错误数量很高,在前 15 分钟中默认超过 10。 | Warning |
|
| Fluentd 报告 Prometheus 可能无法抓取特定的 Fluentd 实例。 | Critical |
|
| Fluentd 报告队列大小正在增加。 | Warning |
|
| FluentD 输出错误的数量非常大,在之前的 15 分钟中,默认情况下超过 25 个。 | Critical |
12.1.4. Elasticsearch 警报规则
您可以在 Red Hat OpenShift Service on AWS web 控制台中查看这些警报规则。
警报 | 描述 | 重要性 |
---|---|---|
| 集群健康状态处于 RED 至少 2 分钟。集群不接受写操作,分片可能缺失,或者master 节点尚未选定。 | Critical |
| 集群健康状态为 YELLOW 至少 20 分钟。某些分片副本尚未分配。 | Warning |
| 集群预期在以后的 6 小时内处于磁盘空间之外。 | Critical |
| 在下一个小时内,集群预计会在下一个小时内消耗掉所有文件描述符。 | Warning |
| 指定节点上的 JVM 堆使用率很高。 | 警报 |
| 由于可用磁盘空间较低,指定节点达到低水位线。分片无法再分配给此节点。应该考虑向节点添加更多磁盘空间。 | info |
| 由于可用磁盘空间较低,指定节点达到高水位线。若有可能,某些分片将重新分配到其他节点。确保向节点添加更多磁盘空间,或者丢弃分配给此节点的旧索引。 | Warning |
| 由于可用磁盘空间不足,指定节点达到洪水水位线。每个在这个节点上分配了分片的索引都会强制使用只读块。当磁盘使用低于高水位线时,索引块必须手动发布。 | Critical |
| 指定节点上的 JVM 堆使用率太高。 | 警报 |
| Elasticsearch 在指定节点上的写入增加。此节点可能无法跟上索引速度。 | Warning |
| 该系统在指定节点上使用的 CPU 太高。 | 警报 |
| Elasticsearch 在指定节点上使用的 CPU 太高。 | 警报 |