第 1 章 Observability 服务简介
Observability 组件是一个服务,可用于了解整个团队中的集群的健康状态和使用情况。默认情况下,在 Red Hat Advanced Cluster Management 安装过程中启用多集群可观察性 Operator。
有关可观察组件的详情,请查看以下文档:
1.1. Observability 架构
multiclusterhub-operator
默认启用 multicluster-observability-operator
pod。您必须配置 multicluster-observability-operator
pod。
当您启用该服务时,observability-endpoint-operator
会自动部署到每个导入或创建的集群中。此控制器从 Red Hat OpenShift Container Platform Prometheus 收集数据,然后将其发送到 Red Hat Advanced Cluster Management hub 集群。如果 hub 集群导入本身是自我管理,并将自身导入为 local-cluster
,则在集群上也会启用可观察性,并从 hub 集群收集指标。提醒,当 hub 集群是自我管理的 disableHubSelfManagement 参数时,将 disableHubSelfManagement
参数设置为 false
。
下图显示了可观察性的组件:
可观察架构的组件包括以下项目:
-
multicluster hub operator (也称为
multiclusterhub-operator
pod)会部署multicluster-observability-operator
pod。它将 hub 集群数据发送到受管集群。 - Observability 附加组件控制器 是自动更新受管集群日志的 API 服务器。
Thanos 基础架构包括 Thanos Compactor,它由
multicluster-observability-operator
pod 部署。Thanos Compactor 确保查询通过使用保留配置以及存储中的数据压缩来表现良好。为了帮助识别 Thanos Compactor 何时遇到问题,请使用监控其健康的四个默认警报。阅读以下默认警报表:
表 1.1. 默认 Thanos 警报表 警报 重要性 描述 ACMThanosCompactHalted
critical
当紧凑器停止时会发送警报。
ACMThanosCompactHighCompactionFailures
warning
当压缩失败率大于 5% 时,会发送警报。
ACMThanosCompactBucketHighOperationFailures
warning
当存储桶操作失败率大于 5% 时,会发送警报。
ACMThanosCompactHasNotRun
warning
当紧凑器没有上 24 小时内上传时,会发送警报。
- Observability 组件部署了一个 Grafana 实例,以便使用仪表板(静态)或数据探索启用数据视觉化。Red Hat Advanced Cluster Management 支持 Grafana 的版本 8.5.20。您还可以设计自己的 Grafana 仪表板。如需更多信息,请参阅指定 Grafana 仪表板。
- Prometheus Alertmanager 可让警报与第三方应用程序转发。您可以通过创建自定义记录规则或警报规则来自定义可观察性服务。Red Hat Advanced Cluster Management 支持 Prometheus Alertmanager 版本 0.25。
1.1.1. Observability 服务中使用的持久性存储
重要: 不要使用本地存储 Operator 或将本地卷用于持久性存储的存储类。如果 pod 重启后在不同节点上重启,则可能会丢失数据。发生这种情况时,pod 无法访问节点上的本地存储。确保您可以访问 接收和
规则
pod 的持久性卷,以避免数据丢失。
安装 Red Hat Advanced Cluster Management 时,必须创建以下持久性卷(PV),以便 PVC 可以自动附加到 PVC。请注意,当没有指定默认存储类或想要使用非默认存储类来托管 PV 时,您必须在 MultiClusterObservability
自定义资源中定义存储类。建议您使用 Block Storage,类似于 Prometheus 使用存储。另外,alertmanager
、thanos-compactor
、thanos-ruler
、thanos-receive-default
和 thanos-store-shard
的每个副本必须具有自己的 PV。查看下表:
持久性卷名称 | 目的 |
alertmanager |
Alertmanager 将 |
thanos-compact | 紧凑器需要本地磁盘空间来存储用于处理的中间数据,以及 bucket 状态缓存。所需空间取决于基础块的大小。紧凑器必须有足够的空间下载所有源块,然后在磁盘上构建紧凑块。磁盘上的数据可以安全地在重新启动之间删除,并且应该是首次尝试使崩溃循环解压器。不过,建议为紧凑器永久磁盘提供压缩器持久磁盘,以便在重启期间高效地使用存储桶状态缓存。 |
thanos-rule |
thanos 标尺通过以固定间隔发出查询来评估 Prometheus 记录和警报规则。规则结果以 Prometheus 2.0 存储格式写回磁盘。在这个有状态集合中保留的数据量在 API 版本 |
thanos-receive-default |
Thanos 接收器接受传入数据(Prometheus 远程写入请求),并将这些数据写入 Prometheus TSDB 的一个本地实例。TSDB 块定期(每 2 小时)上传到对象存储,以进行长期存储和压缩。在这个有状态集合中保留的小时数或天数。有状态集合作为一个本地的缓存,它在 API 版本 |
thanos-store-shard | 它主要充当一个 API 网关,因此不需要大量的本地磁盘空间。它在启动时加入 Thanos 集群,并公告它可以访问的数据。它在本地磁盘上保留少量的、与所有远程块相关的信息,并与存储桶保持同步。这些数据通常在重启时会被安全地删除,这会增加启动时间。 |
注意 :时间序列历史数据存储在对象存储中。Thanos 使用对象存储作为指标和与其相关的元数据的主存储。有关对象存储和降级的详情,请参阅启用可观察性服务。