5.2. 监控 UI 插件
Cluster Observability Operator 监控 UI 插件只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
监控 UI 插件将监控功能添加到 OpenShift Web 控制台的 Administrator 视角中。
- RHACM: Cluster Observability Operator (COO) 中的监控插件允许它在 Red Hat Advanced Cluster Management (RHACM) 环境中使用,为 ACM 提供与 OpenShift Container Platform 相同的警报功能。您可以将插件配置为从 RHACM Alertmanager 后端获取警报。这可以通过协调 RHACM 和 OpenShift Container Platform 监控工作流来实现无缝集成和用户体验。
事件检测: 事件检测功能将根据事件将警报进行分组,以帮助您识别警报突发的根本原因,而不是由单个警报造成破坏。它呈现了一个事件时间线,根据严重性使用不同的颜色,您可以深入到事件中的单个警报中。系统还会根据受影响的组件进行分类,并按严重性分组。这有助于您首先关注最重要的部分。
事件检测功能包括在 Observe
Incidents 的 OpenShift Web 控制台的 Administrator 视角中。
5.2.1. 安装 Cluster Observability Operator 监控 UI 插件
监控 UI 插件为 OpenShift web console, Advance Cluster Management (ACM)、和事件检测增加了与监控相关的 UI 功能。
先决条件
-
您可以使用具有
cluster-admin
集群角色的用户身份访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator
流程
-
在 OpenShift Container Platform web 控制台中,点 Operators
Installed Operators 并选择 Cluster Observability Operator - 选择 UI Plugin 选项卡(在选项卡列表的最右侧),然后按 Create UIPlugin
选择 YAML 视图,输入以下内容,然后按 Create :
apiVersion: observability.openshift.io/v1alpha1 kind: UIPlugin metadata: name: monitoring spec: type: Monitoring monitoring: acm: 1 enabled: true alertmanager: url: 'https://alertmanager.open-cluster-management-observability.svc:9095' thanosQuerier: url: 'https://rbac-query-proxy.open-cluster-management-observability.svc:8443' incidents: 2 enabled: true
5.2.2. Cluster Observability Operator 事件检测概述
集群可能会生成大量监控数据,使用户难以将关键的信号与“噪音”区分。单个事件可能会触发一系列的警报,这可能会延长检测和解决问题的时间。
Cluster Observability Operator 事件检测功能会将相关的警报分组为事件。然后,这些事件会被视觉化,根据严重性使用不同的颜色来组成一个时间线。警报被映射到特定的组件,按严重性进行分组,以帮助您在识别根本原因时首先关注高影响组件。然后,您可以在从事件时间线具体到单独的警报,以确定如何修复根本问题。
Cluster Observability Operator 事件检测转换了警报的清晰步骤,以更快地理解和解析集群中发生的事件。
5.2.3. 使用 Cluster Observability Operator 事件检测
先决条件
-
您可以使用具有
cluster-admin
集群角色的用户身份访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator。
- 已安装启用了事件检测的 Cluster Observability Operator 监控 UI 插件。
流程
-
在 web 控制台的 Administrator 视角中,点 Observe
Incidents。 Incidents Timeline UI 显示分组的警报作为事件。图中行的不同颜色与事件中的不同严重性对应。默认情况下会显示 7 天时间线。
注意在启用事件检测后,至少需要 10 分钟来处理关联性和查看时间线。
只有在启用了此功能后,才会对触发的警报执行分析和分组。在功能启用前已解决的警报。
点下拉菜单来指定持续时间,缩放到 1 天范围的视图。
通过点事件,您可以在 Alerts Timeline UI 中查看作为该事件一部分的警报时间线。
在后续警报列表中,警报映射到特定组件,按严重性分组。
单击以展开列表中的计算组件。此时会显示与该组件相关的底层警报。
- 点触发警报的链接,查看该警报的详细信息。
已知问题
- 根据时间表栏的顺序,工具提示可能会重叠并隐藏底层条。您仍然可以点该条,然后选择事件或警报。
-
Incidents
Component 部分中的 Silence Alert 按钮不会预先填充字段且不可用。作为临时解决方案,您可以使用与 Alerting 部分中相同的菜单和 Silence Alert 按钮。