5.13. Observability(可观察性)


Red Hat Advanced Cluster Management (RHACM) 多集群引擎 Observability 组件为所有受管集群提供指标和警报的集中聚合和视觉化。为了平衡性能和数据分析,监控服务维护以 downsampled 间隔收集的聚合指标的子集。这些指标可以通过一组不同的预配置仪表板在 hub 上访问。

Observability 安装

启用和配置 Observability 服务的主要 CR 是 MulticlusterObservability CR,它定义以下设置:要启用和配置可观察性服务的主自定义资源(CR)是 MulticlusterObservability CR,它定义了以下设置:

  • 可配置的保留设置。
  • 不同组件的存储: thanos receive,thanos compact,thanos rule,thanos store sharding, alertmanager
  • metadata.annotations.mco-disable-alerting="true" 注解,它允许在受管集群中调整监控配置。

    注意

    如果没有设置 Observability 组件,则尝试配置受管集群监控配置。使用这个值集,您可以将所需的配置与必要的 Observability 配置合并,将警报转发到受管集群监控 ConfigMap 对象中。当 Observability 服务启用 RHACM 时,将部署到每个受管集群,以将本地 Monitoring 生成的指标和警报推送到 hub 集群。要从受管集群转发到 hub 的指标和警报由 open-cluster-management-addon-observability 命名空间中的 ConfigMap CR 定义。您也可以指定自定义指标,如需更多信息,请参阅添加自定义指标

Alertmananger 配置
  • hub 集群提供了一个 Observability Alertmanager,它可以配置为将警报推送到外部系统,如电子邮件。Alertmanager 默认启用。
  • 您必须配置警报转发。
  • 当 Alertmanager 启用但没有配置时,hub Alertmanager 不会向外部转发警报。
  • 启用 Observability 后,可将受管集群配置为将警报发送到包括 hub Alertmanager 在内的任何端点。
  • 当受管集群配置为将警报转发到外部源时,不会通过 hub 集群 Alertmanager 路由警报。
  • 警报状态作为指标可用。
  • 启用可观察性后,受管集群警报状态会包含在转发到 hub 集群的指标子集中,并通过 Observability 仪表板获得。
限制和要求
  • Observability 需要持久性对象存储用于长期指标。如需更多信息,请参阅"存储要求"。
工程考虑
  • 指标的转发是完整指标数据的子集。它只包含 observability-metrics-allowlist 配置映射中定义的指标,以及用户添加的任何自定义指标。
  • 指标以 downsampled 率转发。指标通过取 5 分钟间隔的最新数据点(或由 MultiClusterObservability CR 配置定义)来转发。
  • 网络中断可能会导致在该时间段内转发给 hub 集群的指标丢失。如果指标也直接从受管集群转发到提供商网络中的外部指标收集器,则可以缓解这个问题。受管集群上提供了完整解析指标。
  • 除了 hub 上的默认指标仪表板外,用户还可定义自定义仪表板。
  • 引用配置的大小基于 hub 集群为 3500 单节点 OpenShift 集群的指标存储 15 天。如果需要更长的保留或其他受管集群拓扑或大小,则必须更新存储计算并有足够的存储容量。有关计算新值的更多信息,请参阅"存储要求"。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat