主页
产品
OpenShift Container Platform
4.14
监控
2.2. 核心平台监控第一步

2.2. 核心平台监控第一步

安装 OpenShift Container Platform 后，核心平台监控组件会立即开始收集指标，您可以查询和查看。默认 in-cluster 监控堆栈包括核心平台 Prometheus 实例，从集群收集指标以及路由警报的核心 Alertmanager 实例，以及其他组件。根据谁将监控堆栈以及作为集群管理员使用监控堆栈，您可以进一步配置这些监控组件以适应不同场景中的不同用户的需求。

2.2.1. 配置核心平台监控：安装后步骤
复制链接

安装 OpenShift Container Platform 后，集群管理员通常会配置核心平台监控以满足您的需要。这些活动包括为 Prometheus、Alertmanager 和其他监控组件设置存储和配置选项。

注意

默认情况下，在新安装的 OpenShift Container Platform 系统中，用户可以查询和查看收集的指标。如果您希望用户接收警报通知，您只需要配置警报接收器。此处列出的任何其他配置选项都是可选的。

如果不存在，创建 cluster-monitoring-config ConfigMap 对象。
配置默认平台警报的通知，以便 Alertmanager 可以将警报发送到外部通知系统，如电子邮件、Slack 或 PagerDuty。
对于短期的数据保留期，请为 Prometheus 和 Alertmanager 配置持久性存储以存储指标和警报数据。为 Prometheus 和 Thanos Ruler 指定指标数据保留参数。
重要
- 在多节点集群中，您必须为 Prometheus、Alertmanager 和 Thanos Ruler 配置持久性存储，以确保高可用性。
- 默认情况下，在新安装的 OpenShift Container Platform 系统中，监控 ClusterOperator 资源会报告 PrometheusDataPersistenceNotConfigured 状态信息，提醒您没有配置存储。
对于长期的数据保留，配置远程写入功能，使 Prometheus 能够将最接近的指标发送到远程系统以进行存储。
重要
务必将集群 ID 标签添加到指标数据中用于远程写入存储配置的指标。
为需要访问特定监控功能的非管理员用户分配监控集群角色。
为监控堆栈组件分配容限，以便管理员可以将它们移到污点节点上。
为指标集合设置正文大小限制，以帮助避免在提取目标返回包含大量数据时 Prometheus 消耗大量内存的情况。
为集群修改或创建警报规则。这些规则指定触发警报的条件，如高 CPU 或内存用量、网络延迟等。
指定监控组件的资源限值和请求，以确保运行监控组件的容器有足够的 CPU 和内存资源。

当将监控堆栈配置为满足您的需求时，Prometheus 会从指定的服务收集指标，并根据设置存储这些指标。您可以进入 OpenShift Container Platform Web 控制台中的 Observe 页面来查看和查询收集的指标、管理警报、识别性能瓶颈以及根据需要扩展资源：

查看仪表板以视觉化收集的指标、对警报进行故障排除并监控集群的附加信息。
通过创建 PromQL 查询或使用预定义的查询来查询收集的指标。

2.2. 核心平台监控第一步

2.2.1. 配置核心平台监控：安装后步骤
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.2. 核心平台监控第一步

2.2.1. 配置核心平台监控：安装后步骤复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.2.1. 配置核心平台监控：安装后步骤
复制链接