Red Hat OpenShift Cluster Observability Operator 的 UI 插件
为 Cluster Observability Operator 安装和管理 UI 插件。
摘要
第 1 章 Observability UI 插件概述 复制链接链接已复制到粘贴板!
您可以使用 Cluster Observability Operator (COO) 来安装和管理 UI 插件,以增强 OpenShift Container Platform Web 控制台的可观察性功能。该插件扩展默认功能,提供新的 UI 功能,用于故障排除、分布式追踪和集群日志记录。
1.1. 监控 复制链接链接已复制到粘贴板!
监控 UI 插件在 OpenShift Container Platform Web 控制台中为 Advance Cluster Management (ACM)视角和事件检测添加监控相关的 UI 功能。
- ACM : Cluster Observability Operator (COO) 中的监控插件允许它在 Red Hat Advanced Cluster Management (RHACM) 环境中使用,为 ACM 提供与 OpenShift Container Platform 相同的监控功能。
- 事件检测: 事件检测功能将根据事件将警报进行分组,以帮助您识别警报突发的根本原因,而不是由单个警报造成破坏。它呈现了一个事件时间线,根据严重性使用不同的颜色,您可以深入到事件中的单个警报中。系统还会根据受影响的组件进行分类,以帮助您首先专注于最重要的地方。
如需更多信息,请参阅监控 UI 插件页。
1.2. 集群日志记录 复制链接链接已复制到粘贴板!
日志记录 UI 插件在 Observe → Logs 页的 web 控制台中提供日志数据。您可以指定过滤器、查询、时间范围和刷新率。结果显示折叠日志列表,然后扩展以显示每个日志的详细信息。
如需更多信息,请参阅日志记录 UI 插件页。
1.3. 故障排除 复制链接链接已复制到粘贴板!
OpenShift Container Platform 版本 4.16+ 的故障排除面板 UI 插件提供了可观察信号关联,由开源 Korrel8r 项目提供支持。您可以使用 Observe → Alerting 页中的故障排除面板在不同数据存储中轻松关联指标、日志、警报、网络流和其他可观察信号和资源。OpenShift Container Platform 版本 4.17+ 的用户可从 Application Launcher
访问故障排除 UI 面板。
Korrel8r 的输出显示为交互式节点图。当您点节点时,会使用该节点的具体信息自动重定向到对应的 web 控制台页,如指标、日志或 pod。
如需更多信息,请参阅 UI 插件故障排除页。
1.4. 分布式追踪 复制链接链接已复制到粘贴板!
分布式追踪 UI 插件在 Observe → Traces 页的 web 控制台中添加与追踪相关的功能。您可以跟踪通过前端和微服务后端的请求,帮助您识别分布式系统中的代码错误和性能瓶颈。您可以选择在集群中运行的 TempoStack 或 TempoMonolithic 多租户实例,并设置时间范围和查询来查看 trace 数据。
如需更多信息,请参阅分布式追踪 UI 插件页。
第 2 章 监控 UI 插件 复制链接链接已复制到粘贴板!
监控 UI 插件将监控功能添加到 OpenShift Container Platform Web 控制台的 Administrator 视角中。
从 OpenShift Container Platform 4.19 开始,Web 控制台中的视角会统一。Developer 视角不再默认启用。
所有用户都可以与所有 OpenShift Container Platform Web 控制台功能交互。但是,如果您不是集群所有者,您可能需要从集群所有者请求权限。
您仍然可以启用 Developer 视角。在 web 控制台中的 Getting Started 窗格中,您可以浏览控制台,查找有关设置集群的信息,查看启用 Developer 视角的快速启动,并按照链接探索新功能。
- RHACM: Cluster Observability Operator (COO) 中的监控插件允许它在 Red Hat Advanced Cluster Management (RHACM) 环境中使用,为 ACM 提供与 OpenShift Container Platform 相同的警报功能。您可以将插件配置为从 RHACM Alertmanager 后端获取警报。这可以通过协调 RHACM 和 OpenShift Container Platform 监控工作流来实现无缝集成和用户体验。
事件检测: 事件检测功能将根据事件将警报进行分组,以帮助您识别警报突发的根本原因,而不是由单个警报造成破坏。它呈现了一个事件时间线,根据严重性使用不同的颜色,您可以深入到事件中的单个警报中。系统还会根据受影响的组件进行分类,并按严重性分组。这有助于您首先关注最重要的部分。
在 OpenShift Container Platform Web 控制台中,点 Observe → Alerting 并选择 Incidents 选项卡提供了事件检测功能。
2.1. 安装 Cluster Observability Operator 监控 UI 插件 复制链接链接已复制到粘贴板!
监控 UI 插件在 OpenShift Container Platform Web 控制台中为 Advance Cluster Management (ACM)视角和事件检测添加监控相关的 UI 功能。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator
流程
- 在 OpenShift Container Platform web 控制台中,点 Operators → Installed Operators 并选择 Cluster Observability Operator
- 选择 UI Plugin 选项卡(在选项卡列表的最右侧),然后按 Create UIPlugin
选择 YAML 视图,输入以下内容,然后按 Create :
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
2.2. Cluster Observability Operator 事件检测概述 复制链接链接已复制到粘贴板!
集群可能会生成大量监控数据,使用户难以将关键的信号与“噪音”区分。单个事件可能会触发一系列的警报,这可能会延长检测和解决问题的时间。
Cluster Observability Operator 事件检测功能会将相关的警报分组为事件。然后,这些事件会被视觉化,根据严重性使用不同的颜色来组成一个时间线。警报被映射到特定的组件,按严重性进行分组,以帮助您在识别根本原因时首先关注高影响组件。然后,您可以在从事件时间线具体到单独的警报,以确定如何修复根本问题。
Cluster Observability Operator 事件检测转换了警报的清晰步骤,以更快地理解和解析集群中发生的事件。
2.3. 使用 Cluster Observability Operator 事件检测 复制链接链接已复制到粘贴板!
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator。
- 已安装启用了事件检测的 Cluster Observability Operator 监控 UI 插件。
如果您以编程方式安装 Cluster Observability Operator,请确保命名空间(默认为 openshift-cluster-observability-operator)具有标签 openshift.io/cluster-monitoring=true。如果没有通过运行 comand 添加它:
oc label namespace openshift-cluster-observability-operator openshift.io/cluster-monitoring=true
$ oc label namespace openshift-cluster-observability-operator openshift.io/cluster-monitoring=true
流程
- 在 Web 控制台的 Administrator 视角中,点 Observe → Alerting 并选择 Incidents 选项卡。
Incidents Timeline UI 显示分组的警报作为事件。图中行的不同颜色与事件中的不同严重性对应。默认情况下会显示 7 天时间线。
注意在启用事件检测后,至少需要五分钟来处理关联性和时间表。
状态更改会以五分钟的间隔记录。您可以看到时间表旁边的最后更新时间。
只有在启用了此功能后,才会对触发的警报执行分析和分组。在功能启用前已解决的警报。
点下拉菜单来指定持续时间,缩放到 1 天范围的视图。
注意出于性能考虑,UI 只加载显示的数据。开始时间反映了当前时间表中呈现的第一个数据点,而不是警报的绝对开始时间。例如,如果您缩放至 1 天,并且启动了两天前的警报,则开始时间将移到四小时前。
通过点事件,您可以在 Alerts Timeline UI 中查看作为该事件一部分的警报时间线。
在后续警报列表中,警报映射到特定组件,按严重性分组。
点击以展开列表中的组件。此时会显示与该组件相关的底层警报。
- 点警报的链接,查看相关警报规则的详细信息。
第 3 章 Logging UI 插件 复制链接链接已复制到粘贴板!
logging UI 插件会在 OpenShift Container Platform web 控制台的 Observe → Logs 页中显示日志数据。您可以指定过滤条件、查询、时间范围和刷新率,其结果显示为一个折叠的日志列表,您可以扩展它来显示每个日志的更多详细信息。
如果您在 OpenShift Container Platform 版本 4.16+ 上部署 Troubleshooting UI 插件,它会连接到 Korrel8r 服务,并从 Observe → Logs 页面添加指向 web 控制台的直接链接,到 Observe → Metrics 页面,使用关联的 PromQL 查询。该插件还在 Observe → Alerting 中添加了来自 web 控制台警报详情页面的 Seelated Logs 链接,并选一个关联过滤器集的 Observe → Logs 页面。
插件的功能可以归类为:
- dev-console
- 将日志记录视图添加到 Web 控制台。
- alerts
- 将 Web 控制台警报与 Loki 规则器中定义的基于日志的警报合并。在警报详情视图中添加基于日志的指标图表。
- dev-alerts
- 将 Web 控制台警报与 Loki 规则器中定义的基于日志的警报合并。在 web 控制台的警报详情视图中添加基于日志的指标图表。
对于 Cluster Observability Operator (COO) 版本,下表显示了对 OpenShift Container Platform 版本中的这些功能的支持信息:
| COO 版本 | OCP 版本 | 功能 |
|---|---|---|
| 0.3.0+ | 4.12 |
|
| 0.3.0+ | 4.13 |
|
| 0.3.0+ | 4.14+ |
|
3.1. 安装 Cluster Observability Operator 日志记录 UI 插件 复制链接链接已复制到粘贴板!
先决条件
-
您可以使用具有
cluster-admin角色的用户访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator。
-
在集群中有一个
LokiStack实例。
流程
- 在 OpenShift Container Platform web 控制台中,点 Operators → Installed Operators 并选择 Cluster Observability Operator。
- 选择 UI Plugin 选项卡(位于选项卡列表的最右侧),然后点 Create UIPlugin。
选择 YAML 视图,输入以下内容,然后点 Create :
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 1
schema是otel,viaq, 或select之一。如果没有指定值,则默认为viaq。在选择select时,您可以在运行查询时在 UI 中选择模式。
注意日志记录 UI 插件的已知问题 - 如需更多信息,请参阅 OU-587。
-
schema功能只在 OpenShift Container Platform 4.15 及更新的版本中被支持。在早期版本的 Red Hat OpenShift Cluster Observability Operator 中,日志记录 UI 插件将只使用viaq属性,忽略可能设置的任何其他值。 -
非管理员用户无法使用带有 Red Hat OpenShift 版本 5.8 到 6.2 日志记录的
otel属性查询日志。这个问题将在以后的日志记录发行版本中解决。(LOG-6589) -
在 Red Hat OpenShift 版本 5.9 中,未设置
severity_textOtel 属性。
第 4 章 分布式追踪 UI 插件 复制链接链接已复制到粘贴板!
分布式追踪 UI 插件会在 Observe → Traces 的 OpenShift Container Platform web 控制台中添加与追踪相关的功能。您可以跟踪通过前端和微服务后端的请求,帮助您识别分布式系统中的代码错误和性能瓶颈。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator
流程
- 在 OpenShift Container Platform web 控制台中,点 Operators → Installed Operators 并选择 Cluster Observability Operator
- 选择 UI Plugin 选项卡(在选项卡列表的最右侧),然后按 Create UIPlugin
选择 YAML 视图,输入以下内容,然后按 Create :
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
在 OpenShift Container Platform Web 控制台中的分布式追踪 UI 中视觉化追踪提供了使用 trace 的用户友好的方法。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator。
- 已安装 Cluster Observability Operator distributed tracing UI 插件。
-
在集群中有一个
TempoStack或TempoMonolithic多租户实例。
流程
- 在 OpenShift Container Platform web 控制台中点 Observe → Traces。
- 选择 Tempo 实例。如果选择多租户实例,还要选择一个租户。
- 选择 时间范围 和限制 跟踪。
使用两个 Filter 下拉菜单根据属性过滤:
- 服务名称
- 范围名称
- Namespace
- Status
- span Duration
- trace Duration
自定义属性
提示若要进行更高级的过滤,请单击 Show query 链接,并编辑 TraceQL 查询。
当您的过滤器选择后,scatter 图表会视觉化 trace 启动时间、持续时间和 span 数量。
另外,追踪也会列在 scatter 图表下,包括 trace 详情,如 Trace Name、Spans 数 和 Duration。
后端会并行搜索对象存储和 ingester 缓存,直到找到请求的 trace 数量。搜索结果是一个与搜索参数匹配的随机和未排序的 trace 示例。
- 选择一个 trace 来查看其 span 的 Gantt chart。
- 在 Gantt chart 中,选择一个 span 来查看其配置的属性。
第 5 章 面板 UI 插件故障排除 复制链接链接已复制到粘贴板!
故障排除面板 UI 插件提供可观察信号相关性。使用应用程序启动器
的故障排除面板,您可以轻松地导航到与控制台屏幕当前内容相关的资源、指标、日志、警报、网络流和其他可观察信号。
面板在 OpenShift Container Platform Web 控制台中显示交互式节点图。图中的节点代表资源类型或信号,而边缘代表关系。当您点节点时,会自动重定向到对应的 web 控制台页面。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问 OpenShift Container Platform 集群版本 4.19+。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator
流程
- 在 OpenShift Container Platform web 控制台中,点 Operators → Installed Operators 并选择 Cluster Observability Operator
- 选择 UI Plugin 选项卡(在选项卡列表的最右侧),然后按 Create UIPlugin
选择 YAML 视图,输入以下内容,然后按 Create :
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
5.2. 使用 Cluster Observability Operator 故障排除面板 UI 插件 复制链接链接已复制到粘贴板!
Troubleshooting Panel is a side-panel,显示与主控制台中显示的信息相关的资源和信号图(在这个示例中是 apiserver Deployment)。您可以在大多数控制台页面中使用故障排除面板,如资源、警报、指标、日志、追踪、网络可观察性等。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问 OpenShift Container Platform 集群。 - 已登陆到 OpenShift Container Platform Web 控制台。
- 已安装 Cluster Observability Operator。
- 已安装 Cluster Observability Operator 故障排除 UI 插件。
如果您在推荐的命名空间中安装了以下红帽组件,则故障排除面板可以显示其他信号:
日志:
-
OpenShift Container Platform Logging(集合) -
OpenShift Container Platform Loki Operator(store)
-
网络事件:
-
OpenShift Container Platform 网络可观察性(集合) -
OpenShift Container Platform Loki Operator(store)
-
-
trace:
OpenShift Container Platform 分布式跟踪(集合和存储)
具有 ClusterRole/view 的用户(如 kube:admin)会获得最完整的结果。其他用户将看到更多受限制的图形,只显示他们有权查看的数据。
流程
打开 Application Launcher
并点 Signal Correlation 菜单项。
单击 Focus 以显示自主控制台显示的资源或信号开始的关联图形。本例演示了
apiserver部署。- 点 Focus 以随时从主控制台重新计算图形。
- 点刷新图标更新当前显示的图形。
- root (top)节点代表主控制台窗口中的资源。
- first-degree 邻居与初始资源直接相关。
- second-degree 邻居通过 first-degree 邻居间接相关。
点某个节点会在主控制台中打开数据。例如,如果您点 Log 节点,会出现以下面板:
5.2.1. Cluster Observability Operator 故障排除面板 UI 插件的高级控制 复制链接链接已复制到粘贴板!
Advanced 按钮对关联搜索打开其他控制。这些 是实验性的,可能会在以后的版本中有所变化。它们提供对 Korrel8r 上游项目的额外功能的访问,该项目提供了关联搜索功能。
以下列表解释了 高级 按钮下的其他控件: