第 2 章 常见监控配置场景
安装 OpenShift Container Platform 后,核心平台监控组件会立即开始收集指标,您可以查询和查看。默认 in-cluster 监控堆栈包括核心平台 Prometheus 实例,从集群收集指标以及路由警报的核心 Alertmanager 实例,以及其他组件。根据谁将监控堆栈以及作为集群管理员使用监控堆栈,您可以进一步配置这些监控组件以适应不同场景中的不同用户的需求。
除了核心平台监控外,您还可以选择性地为用户定义的项目启用监控。然后,用户可以监控自己的服务和工作负载,而无需额外的监控解决方案。
2.1. 配置核心平台监控:安装后步骤
安装 OpenShift Container Platform 后,集群管理员通常会配置核心平台监控以满足您的需要。这些活动包括为 Prometheus、Alertmanager 和其他监控组件设置存储和配置选项。
默认情况下,在新安装的 OpenShift Container Platform 系统中,用户可以查询和查看收集的指标。如果您希望用户接收警报通知,您只需要配置警报接收器。此处列出的任何其他配置选项都是可选的。
-
如果不存在,创建
cluster-monitoring-config
ConfigMap
对象。 - 配置警报接收器,以便 Alertmanager 可以将警报发送到外部通知系统,如电子邮件、Slack 或 PagerDuty。
- 配置默认平台警报的通知。
对于短期的数据保留期,请为 Prometheus 和 Alertmanager 配置持久性存储以存储指标和警报数据。为 Prometheus 和 Thanos Ruler 指定指标数据保留参数。
重要- 在多节点集群中,您必须为 Prometheus、Alertmanager 和 Thanos Ruler 配置持久性存储,以确保高可用性。
-
默认情况下,在新安装的 OpenShift Container Platform 系统中,监控
ClusterOperator
资源会报告PrometheusDataPersistenceNotConfigured
状态信息,提醒您没有配置存储。
对于长期的数据保留,配置远程写入功能,使 Prometheus 能够将最接近的指标发送到远程系统以进行存储。
重要务必将集群 ID 标签添加到指标数据中用于远程写入存储配置的指标。
- 为需要访问特定监控功能的非管理员用户分配监控集群角色。
- 为监控堆栈组件分配容限,以便管理员可以将它们移到污点节点上。
- 为指标集合 设置正文大小限制,以帮助避免在提取目标返回包含大量数据时 Prometheus 消耗大量内存的情况。
- 为集群修改或创建警报规则。这些规则指定触发警报的条件,如高 CPU 或内存用量、网络延迟等。
- 指定监控组件的资源限值和请求,以确保运行监控组件的容器有足够的 CPU 和内存资源。
当将监控堆栈配置为满足您的需求时,Prometheus 会从指定的服务收集指标,并根据设置存储这些指标。您可以进入 OpenShift Container Platform Web 控制台中的 Observe 页面来查看和查询收集的指标、管理警报、识别性能瓶颈以及根据需要扩展资源: