2.2. 核心平台监控第一步


安装 OpenShift Container Platform 后,核心平台监控组件会立即开始收集指标,您可以查询和查看。默认 in-cluster 监控堆栈包括核心平台 Prometheus 实例,从集群收集指标以及路由警报的核心 Alertmanager 实例,以及其他组件。根据谁将监控堆栈以及作为集群管理员使用监控堆栈,您可以进一步配置这些监控组件以适应不同场景中的不同用户的需求。

2.2.1. 配置核心平台监控:安装后步骤

安装 OpenShift Container Platform 后,集群管理员通常会配置核心平台监控以满足您的需要。这些活动包括为 Prometheus、Alertmanager 和其他监控组件设置存储和配置选项。

注意

默认情况下,在新安装的 OpenShift Container Platform 系统中,用户可以查询和查看收集的指标。如果您希望用户接收警报通知,您只需要配置警报接收器。此处列出的任何其他配置选项都是可选的。

  • 如果不存在,创建 cluster-monitoring-config ConfigMap 对象
  • 配置默认平台警报的通知,以便 Alertmanager 可以将警报发送到外部通知系统,如电子邮件、Slack 或 PagerDuty。
  • 对于短期的数据保留期,请为 Prometheus 和 Alertmanager 配置持久性存储以存储指标和警报数据。为 Prometheus 和 Thanos Ruler 指定指标数据保留参数。

    重要
    • 在多节点集群中,您必须为 Prometheus、Alertmanager 和 Thanos Ruler 配置持久性存储,以确保高可用性。
    • 默认情况下,在新安装的 OpenShift Container Platform 系统中,监控 ClusterOperator 资源会报告 PrometheusDataPersistenceNotConfigured 状态信息,提醒您没有配置存储。
  • 对于长期的数据保留,配置远程写入功能,使 Prometheus 能够将最接近的指标发送到远程系统以进行存储。

    重要

    务必将集群 ID 标签添加到指标数据中用于远程写入存储配置的指标。

  • 为需要访问特定监控功能的非管理员用户分配监控集群角色
  • 为监控堆栈组件分配容限,以便管理员可以将它们移到污点节点上。
  • 为指标集合 设置正文大小限制,以帮助避免在提取目标返回包含大量数据时 Prometheus 消耗大量内存的情况。
  • 为集群修改或创建警报规则。这些规则指定触发警报的条件,如高 CPU 或内存用量、网络延迟等。
  • 指定监控组件的资源限值和请求,以确保运行监控组件的容器有足够的 CPU 和内存资源。

当将监控堆栈配置为满足您的需求时,Prometheus 会从指定的服务收集指标,并根据设置存储这些指标。您可以进入 OpenShift Container Platform Web 控制台中的 Observe 页面来查看和查询收集的指标、管理警报、识别性能瓶颈以及根据需要扩展资源:

  • 查看仪表板 以视觉化收集的指标、对警报进行故障排除并监控集群的附加信息。
  • 通过创建 PromQL 查询或使用预定义的查询来查询 收集的指标
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat