第 2 章 Cluster Observability Operator 概述
Cluster Observability Operator (COO)是 OpenShift Container Platform 的可选组件,旨在创建和管理高度可自定义的监控堆栈。它使集群管理员能够广泛地自动配置和管理监控需求,与默认的 OpenShift Container Platform 监控系统相比,为每个命名空间提供更定制和详细视图。
COO 部署以下监控组件:
- Prometheus - 一个高度可用的 Prometheus 实例,可以使用远程写入将指标发送到外部端点。
- Thanos Querier (可选)- 启用从中央位置查询 Prometheus 实例。
- Alertmanager (可选)- 为不同服务提供警报配置功能。
- UI 插件 (可选)- 通过插件增强可观察功能,用于监控、日志记录、分布式追踪和故障排除。
- Korrel8r (可选)- 提供可观察性信号相关性,由开源 Korrel8r 项目提供支持。
2.1. COO 与默认监控堆栈相比
COO 组件独立于默认的集群内监控堆栈(由 Cluster Monitoring Operator (CMO) 部署和管理)。两个 Operator 部署的监控堆栈不会冲突。除了 CMO 部署的默认平台监控组件外,您还可以使用 COO 监控堆栈。
COO 和默认集群监控堆栈之间的主要区别显示在下表中:
功能 | COO | 默认监控堆栈 |
---|---|---|
范围和集成 | 提供全面的监控和分析,满足企业级需求,涵盖集群和工作负载性能。 但是,它缺少与 OpenShift Container Platform 的直接集成,通常需要外部 Grafana 实例进行仪表板。 | 仅限于集群中的核心组件,如 API 服务器和 etcd,以及特定于 OpenShift 的命名空间。 在控制台中有与 OpenShift Container Platform 的深度集成,包括控制台仪表板和警报管理。 |
配置和自定义 | 更广泛的配置选项,包括数据保留周期、存储方法和收集的数据类型。 COO 可以使用 Server-Side Apply (SSA) 将自定义资源中单个可配置字段的所有权委派给用户,从而增强自定义。 | 带有有限自定义选项的内置配置。 |
数据保留和存储 | 长期数据保留,支持历史分析和容量规划 | 数据保留时间短,专注于短期监控和实时检测。 |