5.13. Observability(可观察性)
Red Hat Advanced Cluster Management (RHACM) 多集群引擎 Observability 组件为所有受管集群提供指标和警报的集中聚合和视觉化。为了平衡性能和数据分析,监控服务维护以 downsampled 间隔收集的聚合指标的子集。这些指标可以通过一组不同的预配置仪表板在 hub 上访问。
- Observability 安装
启用和配置 Observability 服务的主要 CR 是
MulticlusterObservability
CR,它定义以下设置:要启用和配置可观察性服务的主自定义资源(CR)是MulticlusterObservability
CR,它定义了以下设置:- 可配置的保留设置。
-
不同组件的存储:
thanos receive
,thanos compact
,thanos rule
,thanos store
sharding,alertmanager
。 metadata.annotations.mco-disable-alerting="true"
注解,它允许在受管集群中调整监控配置。注意如果没有设置 Observability 组件,则尝试配置受管集群监控配置。使用这个值集,您可以将所需的配置与必要的 Observability 配置合并,将警报转发到受管集群监控
ConfigMap
对象中。当 Observability 服务启用 RHACM 时,将部署到每个受管集群,以将本地 Monitoring 生成的指标和警报推送到 hub 集群。要从受管集群转发到 hub 的指标和警报由open-cluster-management-addon-observability
命名空间中的ConfigMap
CR 定义。您也可以指定自定义指标,如需更多信息,请参阅添加自定义指标。
- Alertmananger 配置
- hub 集群提供了一个 Observability Alertmanager,它可以配置为将警报推送到外部系统,如电子邮件。Alertmanager 默认启用。
- 您必须配置警报转发。
- 当 Alertmanager 启用但没有配置时,hub Alertmanager 不会向外部转发警报。
- 启用 Observability 后,可将受管集群配置为将警报发送到包括 hub Alertmanager 在内的任何端点。
- 当受管集群配置为将警报转发到外部源时,不会通过 hub 集群 Alertmanager 路由警报。
- 警报状态作为指标可用。
- 启用可观察性后,受管集群警报状态会包含在转发到 hub 集群的指标子集中,并通过 Observability 仪表板获得。
- 限制和要求
- Observability 需要持久性对象存储用于长期指标。如需更多信息,请参阅"存储要求"。
- 工程考虑
-
指标的转发是完整指标数据的子集。它只包含
observability-metrics-allowlist
配置映射中定义的指标,以及用户添加的任何自定义指标。 -
指标以 downsampled 率转发。指标通过取 5 分钟间隔的最新数据点(或由
MultiClusterObservability
CR 配置定义)来转发。 - 网络中断可能会导致在该时间段内转发给 hub 集群的指标丢失。如果指标也直接从受管集群转发到提供商网络中的外部指标收集器,则可以缓解这个问题。受管集群上提供了完整解析指标。
- 除了 hub 上的默认指标仪表板外,用户还可定义自定义仪表板。
- 引用配置的大小基于 hub 集群为 3500 单节点 OpenShift 集群的指标存储 15 天。如果需要更长的保留或其他受管集群拓扑或大小,则必须更新存储计算并有足够的存储容量。有关计算新值的更多信息,请参阅"存储要求"。
-
指标的转发是完整指标数据的子集。它只包含