5.2. 监控 UI 插件


重要

Cluster Observability Operator 监控 UI 插件只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

监控 UI 插件将监控功能添加到 OpenShift Web 控制台的 Administrator 视角中。

  • RHACM: Cluster Observability Operator (COO) 中的监控插件允许它在 Red Hat Advanced Cluster Management (RHACM) 环境中使用,为 ACM 提供与 OpenShift Container Platform 相同的警报功能。您可以将插件配置为从 RHACM Alertmanager 后端获取警报。这可以通过协调 RHACM 和 OpenShift Container Platform 监控工作流来实现无缝集成和用户体验。
  • 事件检测: 事件检测功能将根据事件将警报进行分组,以帮助您识别警报突发的根本原因,而不是由单个警报造成破坏。它呈现了一个事件时间线,根据严重性使用不同的颜色,您可以深入到事件中的单个警报中。系统还会根据受影响的组件进行分类,并按严重性分组。这有助于您首先关注最重要的部分。

    事件检测功能包括在 Observe Incidents 的 OpenShift Web 控制台的 Administrator 视角中。

5.2.1. 安装 Cluster Observability Operator 监控 UI 插件

监控 UI 插件为 OpenShift web console, Advance Cluster Management (ACM)、和事件检测增加了与监控相关的 UI 功能。

先决条件

  • 您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
  • 已登陆到 OpenShift Container Platform Web 控制台。
  • 已安装 Cluster Observability Operator

流程

  1. 在 OpenShift Container Platform web 控制台中,点 Operators Installed Operators 并选择 Cluster Observability Operator
  2. 选择 UI Plugin 选项卡(在选项卡列表的最右侧),然后按 Create UIPlugin
  3. 选择 YAML 视图,输入以下内容,然后按 Create

    apiVersion: observability.openshift.io/v1alpha1
    kind: UIPlugin
    metadata:
      name: monitoring
    spec:
      type: Monitoring
      monitoring:
        acm: 1
          enabled: true
          alertmanager:
            url: 'https://alertmanager.open-cluster-management-observability.svc:9095'
          thanosQuerier:
            url: 'https://rbac-query-proxy.open-cluster-management-observability.svc:8443'
        incidents: 2
          enabled: true
    1
    启用 RHACM 功能。您必须配置 Alertmanager 和 ThanosQuerier Service 端点。
    2
    启用事件检测功能。

5.2.2. Cluster Observability Operator 事件检测概述

集群可能会生成大量监控数据,使用户难以将关键的信号与“噪音”区分。单个事件可能会触发一系列的警报,这可能会延长检测和解决问题的时间。

Cluster Observability Operator 事件检测功能会将相关的警报分组为事件。然后,这些事件会被视觉化,根据严重性使用不同的颜色来组成一个时间线。警报被映射到特定的组件,按严重性进行分组,以帮助您在识别根本原因时首先关注高影响组件。然后,您可以在从事件时间线具体到单独的警报,以确定如何修复根本问题。

Cluster Observability Operator 事件检测转换了警报的清晰步骤,以更快地理解和解析集群中发生的事件。

5.2.3. 使用 Cluster Observability Operator 事件检测

先决条件

  • 您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
  • 已登陆到 OpenShift Container Platform Web 控制台。
  • 已安装 Cluster Observability Operator。
  • 已安装启用了事件检测的 Cluster Observability Operator 监控 UI 插件。

流程

  1. 在 web 控制台的 Administrator 视角中,点 Observe Incidents
  2. Incidents Timeline UI 显示分组的警报作为事件。图中行的不同颜色与事件中的不同严重性对应。默认情况下会显示 7 天时间线。

    每周事件时间线
    注意

    在启用事件检测后,至少需要 10 分钟来处理关联性和查看时间线。

    只有在启用了此功能后,才会对触发的警报执行分析和分组。在功能启用前已解决的警报。

  3. 点下拉菜单来指定持续时间,缩放到 1 天范围的视图。

    每日事件时间线
  4. 通过点事件,您可以在 Alerts Timeline UI 中查看作为该事件一部分的警报时间线。

    事件警报时间线
  5. 在后续警报列表中,警报映射到特定组件,按严重性分组。

    事件警报组件
  6. 单击以展开列表中的计算组件。此时会显示与该组件相关的底层警报。

    事件扩展组件
  7. 点触发警报的链接,查看该警报的详细信息。
注意

已知问题

  • 根据时间表栏的顺序,工具提示可能会重叠并隐藏底层条。您仍然可以点该条,然后选择事件或警报。
  • Incidents Component 部分中的 Silence Alert 按钮不会预先填充字段且不可用。作为临时解决方案,您可以使用与 Alerting 部分中相同的菜单和 Silence Alert 按钮。
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.