Red Hat OpenShift Cluster Observability Operator 发行注记


Red Hat OpenShift Cluster Observability Operator 1-latest

OpenShift Cluster Observability Operator 发行版本中的主要新功能及变化信息。

Red Hat OpenShift Documentation Team

摘要

此发行注记介绍了 OpenShift Cluster Observability Operator 的新功能、功能增强、重要的技术变化、以及对以前版本中的错误作出的主要修正。另外,还包括在此版本正式发行(GA)时存在的已知问题的信息。

第 1 章 Cluster Observability Operator 发行注记

Cluster Observability Operator (COO) 是一个可选的 OpenShift Container Platform Operator,它可让管理员创建独立监控堆栈,供不同的服务和用户使用。

COO 补充 OpenShift Container Platform 的内置监控功能。您可以使用由 Cluster Monitoring Operator (CMO) 管理的默认平台和用户工作负载监控堆栈并行部署它。

本发行注记介绍了 OpenShift Container Platform 中 Cluster Observability Operator 的开发。

下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:

Expand
COO 版本OCP 版本分布式追踪日志记录故障排除面板ACM 警报事件检测

1.1+

4.12 - 4.14

1.1+

4.15

1.1+

4.16 - 4.18

1.2+

4.19+

重要

从 OpenShift Container Platform 4.19 开始,Web 控制台中的视角会统一。Developer 视角不再默认启用。

所有用户都可以与所有 OpenShift Container Platform Web 控制台功能交互。但是,如果您不是集群所有者,您可能需要从集群所有者请求权限。

您仍然可以启用 Developer 视角。在 web 控制台中的 Getting Started 窗格中,您可以浏览控制台,查找有关设置集群的信息,查看启用 Developer 视角的快速启动,并按照链接探索新功能。

1.1. Cluster Observability Operator 1.3

以下公告可用于 Cluster Observability Operator 1.3:

1.1.1. 新功能及功能增强

事件检测功能达到正式发行(GA)

Cluster Observability Operator 中的事件检测功能在此发行版本中为 OpenShift Container Platform 版本 4.19+ 达到正式发行(GA)状态。事件检测通过将相关警报分组到事件中简化了可观察性。这有助于减少警报 fatigue,并允许您专注于问题的根本原因。有了正式发行(GA)状态,事件检测功能是生产环境的,并完全支持企业部署。用户可以通过设置 spec.monitoring.incidents.enabled: true 来启用通过监控 UIPlugin 资源的事件检测。

如需更多信息,请参阅 事件检测

COO-1281

事件视图支持静默的警报

监控 UI 插件中的事件视图支持此发行版本中静默的警报。静默的警报显示在事件检测 UI 中的 Silenced 状态,并出现在时间表中。这有助于您将其与活跃警报区分开,并了解集群可观察性信号的完整状态。

COO-1280

故障排除达到正式发行(GA)

Cluster Observability Operator 中的故障排除功能在此发行版本中为 OpenShift Container Platform 版本 4.19+ 达到正式发行(GA)状态,且在早期版本中不被支持。故障排除 UI 插件提供可观察信号相关性,由开源 Korrel8r 项目提供支持。通过故障排除面板,您可以在不同的数据存储中轻松关联指标、日志、警报、网络流和其他可观察信号和资源。

如需更多信息,请参阅 UI 插件故障排除

ObservabilityInstaller 自定义资源的端到端可观察性
Cluster Observability Operator 提供了一个 ObservabilityInstaller 自定义资源,用于部署端到端可观察性,并将最小配置作为技术预览功能。ObservabilityInstaller 自定义资源通过自动管理 Operator 安装、存储配置和 UI 集成来简化日志记录、追踪和 OpenTelemetry 功能的部署。

1.1.2. 程序错误修复

故障排除面板可以正确处理 OpenShift Container Platform 4.19 警报 URL

在此次更新之前,OpenShift Container Platform 4.19 引入了对警报 URL 格式的更改,其中有些 URL 只包含控制台内部数字 ID,而无需警报名称。因此,korrel8r 故障排除面板无法正确处理这些 URL,且无法将警报与相关资源关联。

在这个版本中,korrel8r 可以正确地处理 OpenShift Container Platform 4.19 中的警报 URL,包括仅包含数字标识符的 URL。因此,故障排除面板可用于 OpenShift Container Platform 4.19 集群中的所有警报类型。

COO-1145

UIPlugin 监控配置在 Operator 升级后保留

在此次更新之前,当将 Cluster Observability Operator 从 1.2.0 升级到 1.2.1 或更高版本时,在升级过程中会删除监控 UIPlugin 配置。UIPlugin spec 为空,只显示插件类型,同时丢失 RHACM 集成设置、Perses 仪表板和事件管理设置。因此,升级后无法访问监控仪表板和功能,Operator 会记录错误,表示 监控配置对于插件类型 Monitoring 不可为空

在这个版本中,Cluster Observability Operator 在升级过程中可以正确地保留监控 UIPlugin 配置。因此,在 Operator 升级后,监控仪表板、RHACM 集成和事件管理功能仍可用,而无需手动重新配置。

COO-1051

在所有协调场景中,UIPlugin 状态会正确更新

在此次更新之前,UIPlugin 控制器不会更新所有协调场景中的自定义资源 status 字段。当发生协调错误时,控制器无法更新状态,从而导致在没有应用配置更改时报告成功。因此,用户无法通过 status 字段准确决定 UIPlugin 资源的状态,且必须检查 generation 字段或 operator 日志来调试问题。

在这个版本中,Cluster Observability Operator 在所有协调场景中可以正确地更新 UIPlugin 状态,包括错误条件。因此,用户可以依赖 UIPlugin status 字段来准确反映资源的当前状态,并更有效地对配置问题进行故障排除。

COO-1055

分布式追踪 UIPlugin 处理 TraceQL 查询中的双引号

在此次更新之前,COO 1.2.2 中的分布式追踪 UIPlugin 无法正确处理 TraceQL 查询表达式中的双引号。当属性值包含双引号时,查询解析器会失败,如 HTTP 路由属性中的正则表达式模式。因此,用户无法使用包含双引号的属性查询 trace,即使从用户界面中的下拉菜单选择了这些值。

在这个版本中,Red Hat OpenShift Cluster Observability Operator distributed tracing 控制台插件可以正确地处理在属性值中包含双引号的 TraceQL 查询。因此,用户可以使用任何属性值查询 trace,包括包含特殊字符(如双引号)的 trace。

COO-1175

只有在部署了故障排除面板时,才会将日志记录视图插件代理到 korrel8r

在此次更新之前,COO 1.2.1 中的日志记录视图插件被配置为将 Red Hat OpenShift Cluster Observability Operator 控制台代理到 korrel8r 服务,即使没有部署故障排除面板 UIPlugin。控制台会尝试连接到不存在的服务,从而导致权限被拒绝。因此,用户在日志记录视图中遇到临时的 "Missing permissions to get logs" 错误信息,它会在 30-60 秒后自行解决,而无需用户干预。

在这个版本中,Cluster Observability Operator 仅在部署故障排除面板 UIPlugin 时,在日志记录视图插件中配置 korrel8r 代理。因此,在没有故障排除面板的情况下,用户在查看日志时不再遇到假的权限错误。

COO-1253

分布式追踪搜索字段支持键盘导航

在此次更新之前,分布式追踪控制台插件搜索字段不支持仅限键盘的导航。当用户输入过滤器值并按 Enter 选择它时,页面会重置为租户选择屏幕,而不是应用过滤器。因此,只有键盘的用户无法通过服务名称或其他属性过滤 trace,并被强制使用基于鼠标的选择。

在这个版本中,Red Hat OpenShift Cluster Observability Operator distributed tracing 控制台插件可以正确地处理搜索字段中的 Enter 键。因此,用户可以使用仅限键盘的导航应用 trace 过滤器,从而提高了可访问性。

COO-1017

UIPlugin 配置更改移除禁用的功能 pod

在此次更新之前,COO 1.2.1 中的 UIPlugin 控制器不会在用户更新配置时为禁用的功能删除 pod。当用户在 UIPlugin 规格中设置 perses.enabled: falseincidents.enabled: false 时,关联的 pod (perses-0 和 health-analyzer)会继续运行。因此,用户无法禁用 Perses 仪表板或事件功能,禁用禁用的组件仍然消耗集群资源。

在这个版本中,Cluster Observability Operator 在 UIPlugin 配置中被禁用时可以正确地删除 pod。因此,用户可以通过更新 UIPlugin 规格来启用或禁用 Perses 和 eventss 功能,相关的 pod 会相应地创建或删除。

COO-1054

1.1.3. CVE

1.2. Cluster Observability Operator 1.2.2

以下公告可用于 Cluster Observability Operator 1.2.2:

1.2.1. 程序错误修复

  • 在此次更新之前,安装事件检测功能可能会间歇性失败。症状包括事件检测 UI 会被显示,但没有包括任何数据。另外,health-analyzer ServiceMonitor 资源处于失败状态,错误信息 tls: failed to verify certificate: x509。在这个版本中,事件检测功能会被正确安装。(COO-1062)

    如果您要从包括这个程序错误的 1.2.1 升级,您必须重新创建监控 UI 插件来解决这个问题。

1.2.2. 已知问题

Cluster Observability Operator 1.2.2 中已知的问题:

  • 安装版本 1.2.2 或从版本 1.0 升级时,监控插件的 UIPlugin 资源可能会损坏。当您也部署了分布式追踪、故障排除面板和 Advance Cluster Management (ACM) 以及监控 UI 插件时,会出现这种情况。您可以通过重新创建 UI 插件来解决这个问题。(COO-1051)

    如果您之前已在 1.2.1 中解决了这个问题,然后升级到 1.2.2,这个问题不会重新出现。

1.3. Cluster Observability Operator 1.2.1

以下公告可用于 Cluster Observability Operator 1.2.1:

1.3.1. 程序错误修复

  • 在此次更新之前,在 Operator 版本 1.2 升级过程中会保留旧的版本标签 matcher。这会导致 Perses 仪表板不可用。在这个版本中,版本标签会被删除,Perses 仪表板会被正确协调。

1.3.2. 已知问题

Cluster Observability Operator 1.2.1 中已知的问题:

  • 事件检测功能的安装可能会间歇性失败。症状包括事件检测 UI 会被显示,但没有包括任何数据。另外,health-analyzer ServiceMonitor 资源处于失败状态,错误信息 tls: failed to verify certificate: x509。您可以通过升级到 1.2.2 并重新创建监控 UI 插件来解决这个问题。(COO-1062)
  • 安装版本 1.2.1 或从版本 1.0 升级时,监控插件的 UIPlugin 资源可能会损坏。当您也部署了分布式追踪、故障排除面板和 Advance Cluster Management (ACM) 以及监控 UI 插件时,会出现这种情况。您可以通过重新创建 UI 插件来解决这个问题。(COO-1051)

1.4. Cluster Observability Operator 1.2

以下公告可用于 Cluster Observability Operator 1.2:

1.4.1. 新功能及功能增强

  • 除了之前支持的 ViaQ 方案外,日志记录 UI 插件还支持 OTEL 格式。(COO-816)
  • 在安装监控 UI 插件时,会默认部署加速器仪表板。(COO-942)
  • 现在,为 Korrel8r 显示每个图形节点的多个结果。(COO-785)
  • 现在,在事件检测面板中可以直接进入单个事件详情,这启用了 Red Hat Advanced Cluster Management (RHACM) 2.14 中的事件概述功能。(COO-977,ACM-18751)
  • 高级过滤功能已添加到追踪视图中。(COO-979)
  • 分布式追踪 UI 插件的状态现在是正式发布 (GA),支持 Patternfly 4, 5 和 6。(COO-873)

1.4.2. 程序错误修复

  • 在以前的版本中,LokiStack 是安装日志记录 UI 插件的先决条件。在这个版本中,您可以在没有 LokiStack 的情况下安装日志记录 UI 插件。(COO-760)
  • 在以前的版本中,IncidentsComponent 部分中的 Silence Alert 按钮不会预先填充字段且不可用。此发行版本解决了这个问题。(COO-970)

1.4.3. 已知问题

Cluster Observability Operator 1.2.0 中已知的问题:

  • 当从 COO 1.1.1 升级到 COO 1.2 时,Perses 仪表板不会被正确协调,这需要重新安装监控 UI 插件。(COO-978)

1.5. Cluster Observability Operator 1.1.1

1.5.1. 程序错误修复

  • 在以前的版本中,在从 Cluster Observability Operator 1.0 升级时,许多集群中的 observability-operatorperses-operator pod 因 OutOfMemory 错误而进入 CrashLoopBackOff 状态,。此发行版本解决了这个问题。(COO-784)

1.6. Cluster Observability Operator 1.1

以下公告可用于 Cluster Observability Operator 1.1:

1.6.1. 新功能及功能增强

  • 现在,您可以使用 COO 安装监控 UI 插件。(COO-262)
  • 您可以在监控 UI 插件中启用事件检测。(COO-690)
  • 添加了对 Thanos web 端点的 TLS 支持。(COO-222)

1.6.2. 已知问题

Cluster Observability Operator 1.1.0 中已知的问题:

1.6.3. 程序错误修复

  • 在以前的版本中,日志记录 UI 插件不支持设置自定义 LokiStack 名称或命名空间。此发行版本解决了这个问题。(COO-332)

1.7. Cluster Observability Operator 1.0

1.7.1. 新功能及功能增强

  • 现在,OpenShift Container Platform 平台监控启用了 COO。(COO-476)

    • 为 COO Web 服务器实施 HTTPS 支持。(COO-480)
    • 为 COO Web 服务器实施 authn/authz。(COO-481)
    • 配置 ServiceMonitor 资源,以从 COO 收集指标。(COO-482)
    • 为 OLM 捆绑包添加 operatorframework.io/cluster-monitoring=true 注解。(COO-483)
    • 定义 COO 的警报策略。(COO-484)
    • 为警报配置 PrometheusRule。(COO-485)
  • 在创建时,支持级别注解被添加到 UIPlugin CR 中。支持级别基于插件类型,值为 DevPreviewTechPreviewGeneralAvailability。(COO-318)
  • 现在,您可以在 Prometheus CR 中配置 Alertmanager schemetlsConfig 字段。(COO-219)
  • 对于故障排除面板的扩展技术预览,增加了对与 Kubernetes 资源定位 trace 的支持,并直接使用其他可观察信号,包括日志、警报、指标和网络事件。(COO-450)

    • 当进入到追踪页时,您可以通过点 web 控制台中的 Observe → Tracing 来选择 Tempo 实例和租户。预览故障排除面板仅适用于 openshift-tracing / platform 实例和 platform 租户。
    • 故障排除面板在 Administrator 视角中有最佳效果。由于某些后端中的授权问题,它在 Developer 视角中具有有限的功能,特别是 Prometheus 用于指标和警报。这将在以后的发行版本中解决。

下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:

Expand
COO 版本OCP 版本分布式追踪日志记录平面故障排除

1.0

4.12 - 4.15

1.0

4.16+

1.7.2. CVE

1.7.3. 程序错误修复

  • 在以前的版本中,COO 安装的默认命名空间是 openshift-operators。在这个版本中,defaullt 命名空间会更改为 openshift-cluster-observability-operator。(COO-32)
  • 在以前的版本中,korrel8r 只能解析时间序列选择器表达式。在这个版本中,korrel8r 可以解析任何有效的 PromQL 表达式,以提取用于关联性的时间序列选择器。(COO-558)
  • 在以前的版本中,当从分布式 Tracing UI 插件查看 Tempo 实例时,scatter 图表图表显示 trace 持续时间无法正确呈现。bubble 大小太大,并在 x 和 y 轴间有重叠。在这个版本中,图形可以被正确呈现。(COO-319)

1.8. 较旧的、技术预览版本中这个功能可用

下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:

Expand
COO 版本OCP 版本仪表板分布式追踪日志记录平面故障排除

0.2.0

4.11

0.3.0+, 0.4.0+

4.11 - 4.15

0.3.0+, 0.4.0+

4.16+

1.9. Cluster Observability Operator 0.4.1

以下公告可用于 Cluster Observability Operator 0.4.1:

1.9.1. 新功能及功能增强

  • 现在,您可以为 Prometheus 和 Alertmanager 配置 WebTLS。

1.9.2. CVE

1.9.3. 程序错误修复

  • 在以前的版本中,当您删除仪表板 UI 插件时,consoles.operator.openshift.io 资源仍然会包含 console-dashboards-plugin。此发行版本解决了这个问题。(COO-152)
  • 在以前的版本中,Web 控制台没有显示 Red Hat COO 的正确图标。此发行版本解决了这个问题。(COO-353)
  • 在以前的版本中,当您从 web 控制台安装 COO 时,support 部分会包含无效的链接。此发行版本解决了这个问题。(COO-354)
  • 在以前的版本中,用于 COO 的集群服务版本 (CSV)链接到文档的非官方版本。此发行版本解决了这个问题。(COO-356)

1.10. Cluster Observability Operator 0.4.0

以下公告可用于 Cluster Observability Operator 0.4.0:

1.10.1. 新功能及功能增强

1.10.1.1. UI 插件故障排除
  • UI 面板的故障排除已被改进,您现在可以选择并专注于特定的启动信号。
  • 通过选择深度选项,可以对 Korrel8r 查询有更多了解。
  • OpenShift Container Platform 版本 4.17+ 的用户可从 Application Launcher app launcher 访问故障排除 UI 面板。另外,在 4.16+ 版本中,您可以点 ObserveAlerting 在 web 控制台中访问它。

如需更多信息,请参阅 UI 插件故障排除

1.10.1.2. 分布式追踪 UI 插件
  • 分布式追踪 UI 插件已被改进,现在可以使用 Gantt chart 探索 trace。

如需更多信息,请参阅分布式追踪 UI 插件

1.10.2. 程序错误修复

  • 在以前的版本中,普通用户无法通过点 ObserveLogs 在 web 控制台的 Developer 视角中访问指标。此发行版本解决了这个问题。(COO-288)
  • 在以前的版本中,故障排除 UI 插件使用了错误的过滤用于网络观察性。此发行版本解决了这个问题。(COO-299)
  • 在以前的版本中,故障排除 UI 插件生成一个不正确的 URL 用于 pod 标签搜索。此发行版本解决了这个问题。(COO-298)
  • 在以前的版本中,分布式追踪 UI 插件中有一个授权漏洞。此发行版本解决了这个问题,并且仅使用多租户 TempoStackTempoMonolithic 实例进一步强化分布式追踪 UI 插件。

1.11. Cluster Observability Operator 0.3.2

以下公告可用于 Cluster Observability Operator 0.3.2:

1.11.1. 新功能及功能增强

  • 在这个版本中,您可以使用带有 MonitoringStack 组件的容限和节点选择器。

1.11.2. 程序错误修复

  • 在以前的版本中,日志记录 UIPlugin 没有处于 Available 状态,当在一个特定版本的 OpenShift Container Platform 上安装时,日志记录 pod 不会被创建。此发行版本解决了这个问题。(COO-260)

1.12. Cluster Observability Operator 0.3.0

以下公告可用于 Cluster Observability Operator 0.3.0:

1.12.1. 新功能及功能增强

  • 在这个版本中,Cluster Observability Operator 添加了对将来的 OpenShift Container Platform observability Web 控制台 UI 插件和可观察性组件的后端支持。

1.13. Cluster Observability Operator 0.2.0

以下公告可用于 Cluster Observability Operator 0.2.0 :

1.13.1. 新功能及功能增强

  • 在这个版本中,Cluster Observability Operator 支持为 OpenShift Container Platform Web 控制台界面(UI)安装和管理与可观察性相关的插件。(COO-58)

1.14. Cluster Observability Operator 0.1.3

以下公告可用于 Cluster Observability Operator 0.1.3:

1.14.1. 程序错误修复

  • 在以前的版本中,如果您试图访问 http://<prometheus_url>:9090/graph 的 Prometheus web 用户界面(UI),会显示以下出错信息:Error open React index.html: open web/ui/static/react/index.html: no such file or directory。此发行版本解决了这个问题,Prometheus Web UI 现在可以正确显示。(COO-34)

1.15. Cluster Observability Operator 0.1.2

以下公告可用于 Cluster Observability Operator 0.1.2:

1.15.1. CVE

1.15.2. 程序错误修复

  • 在以前的版本中,某些集群服务版本 (CSV) 注解没有包括在 COO 的元数据中。由于这些缺少的注解,某些 COO 功能没有出现在软件包清单或 OperatorHub 用户界面中。此发行版本添加了缺少的注解,从而解决了这个问题。(COO-11)
  • 在以前的版本中,COO 的自动更新无法正常工作,Operator 的较新版本不会自动替换旧版本,即使 OperatorHub 中提供了更新的版本。此发行版本解决了这个问题。(COO-12)
  • 在以前的版本中,Thanos Querier 只侦听 127.0.0.1 的端口 9090 (localhos)上的网络流量,如果您试图访问 Thanos Querier 服务,这会导致 502 Bad Gateway 错误。在这个版本中,Thanos Querier 配置已被更新,因此组件现在侦听默认端口(10902),从而解决了这个问题。现在,您还可以通过服务器端应用(SSA)修改端口,并在需要时添加代理链。(COO-14)

1.16. Cluster Observability Operator 0.1.1

以下公告可用于 Cluster Observability Operator 0.1.1:

1.16.1. 新功能及功能增强

此发行版本更新了 Cluster Observability Operator,以支持在受限网络中或断开连接的环境中安装 Operator。

1.17. Cluster Observability Operator 0.1

此发行版本在 OperatorHub 上提供了 Cluster Observability Operator 的技术预览版本。

法律通告

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat