Red Hat OpenShift Cluster Observability Operator 发行注记
OpenShift Cluster Observability Operator 发行版本中的主要新功能及变化信息。
摘要
第 1 章 Cluster Observability Operator 发行注记 复制链接链接已复制到粘贴板!
Cluster Observability Operator (COO) 是一个可选的 OpenShift Container Platform Operator,它可让管理员创建独立监控堆栈,供不同的服务和用户使用。
COO 补充 OpenShift Container Platform 的内置监控功能。您可以使用由 Cluster Monitoring Operator (CMO) 管理的默认平台和用户工作负载监控堆栈并行部署它。
本发行注记介绍了 OpenShift Container Platform 中 Cluster Observability Operator 的开发。
下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:
| COO 版本 | OCP 版本 | 分布式追踪 | 日志记录 | 故障排除面板 | ACM 警报 | 事件检测 |
|---|---|---|---|---|---|---|
| 1.1+ | 4.12 - 4.14 | ✔ | ✔ | ✘ | ✘ | ✘ |
| 1.1+ | 4.15 | ✔ | ✔ | ✘ | ✔ | ✘ |
| 1.1+ | 4.16 - 4.18 | ✔ | ✔ | ✘ | ✔ | ✘ |
| 1.2+ | 4.19+ | ✔ | ✔ | ✔ | ✔ | ✔ |
从 OpenShift Container Platform 4.19 开始,Web 控制台中的视角会统一。Developer 视角不再默认启用。
所有用户都可以与所有 OpenShift Container Platform Web 控制台功能交互。但是,如果您不是集群所有者,您可能需要从集群所有者请求权限。
您仍然可以启用 Developer 视角。在 web 控制台中的 Getting Started 窗格中,您可以浏览控制台,查找有关设置集群的信息,查看启用 Developer 视角的快速启动,并按照链接探索新功能。
1.1. Cluster Observability Operator 1.3 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.3:
1.1.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 事件检测功能达到正式发行(GA)
Cluster Observability Operator 中的事件检测功能在此发行版本中为 OpenShift Container Platform 版本 4.19+ 达到正式发行(GA)状态。事件检测通过将相关警报分组到事件中简化了可观察性。这有助于减少警报 fatigue,并允许您专注于问题的根本原因。有了正式发行(GA)状态,事件检测功能是生产环境的,并完全支持企业部署。用户可以通过设置
spec.monitoring.incidents.enabled: true来启用通过监控UIPlugin资源的事件检测。如需更多信息,请参阅 事件检测
- 事件视图支持静默的警报
监控 UI 插件中的事件视图支持此发行版本中静默的警报。静默的警报显示在事件检测 UI 中的
Silenced状态,并出现在时间表中。这有助于您将其与活跃警报区分开,并了解集群可观察性信号的完整状态。- 故障排除达到正式发行(GA)
Cluster Observability Operator 中的故障排除功能在此发行版本中为 OpenShift Container Platform 版本 4.19+ 达到正式发行(GA)状态,且在早期版本中不被支持。故障排除 UI 插件提供可观察信号相关性,由开源 Korrel8r 项目提供支持。通过故障排除面板,您可以在不同的数据存储中轻松关联指标、日志、警报、网络流和其他可观察信号和资源。
如需更多信息,请参阅 UI 插件故障排除
- ObservabilityInstaller 自定义资源的端到端可观察性
-
Cluster Observability Operator 提供了一个
ObservabilityInstaller自定义资源,用于部署端到端可观察性,并将最小配置作为技术预览功能。ObservabilityInstaller自定义资源通过自动管理 Operator 安装、存储配置和 UI 集成来简化日志记录、追踪和 OpenTelemetry 功能的部署。
1.1.2. 程序错误修复 复制链接链接已复制到粘贴板!
- 故障排除面板可以正确处理 OpenShift Container Platform 4.19 警报 URL
在此次更新之前,OpenShift Container Platform 4.19 引入了对警报 URL 格式的更改,其中有些 URL 只包含控制台内部数字 ID,而无需警报名称。因此,korrel8r 故障排除面板无法正确处理这些 URL,且无法将警报与相关资源关联。
在这个版本中,korrel8r 可以正确地处理 OpenShift Container Platform 4.19 中的警报 URL,包括仅包含数字标识符的 URL。因此,故障排除面板可用于 OpenShift Container Platform 4.19 集群中的所有警报类型。
UIPlugin监控配置在 Operator 升级后保留在此次更新之前,当将 Cluster Observability Operator 从 1.2.0 升级到 1.2.1 或更高版本时,在升级过程中会删除监控
UIPlugin配置。UIPluginspec 为空,只显示插件类型,同时丢失 RHACM 集成设置、Perses 仪表板和事件管理设置。因此,升级后无法访问监控仪表板和功能,Operator 会记录错误,表示监控配置对于插件类型 Monitoring 不可为空。在这个版本中,Cluster Observability Operator 在升级过程中可以正确地保留监控
UIPlugin配置。因此,在 Operator 升级后,监控仪表板、RHACM 集成和事件管理功能仍可用,而无需手动重新配置。- 在所有协调场景中,
UIPlugin状态会正确更新 在此次更新之前,
UIPlugin控制器不会更新所有协调场景中的自定义资源 status 字段。当发生协调错误时,控制器无法更新状态,从而导致在没有应用配置更改时报告成功。因此,用户无法通过 status 字段准确决定UIPlugin资源的状态,且必须检查 generation 字段或 operator 日志来调试问题。在这个版本中,Cluster Observability Operator 在所有协调场景中可以正确地更新
UIPlugin状态,包括错误条件。因此,用户可以依赖UIPluginstatus 字段来准确反映资源的当前状态,并更有效地对配置问题进行故障排除。- 分布式追踪
UIPlugin处理 TraceQL 查询中的双引号 在此次更新之前,COO 1.2.2 中的分布式追踪
UIPlugin无法正确处理 TraceQL 查询表达式中的双引号。当属性值包含双引号时,查询解析器会失败,如 HTTP 路由属性中的正则表达式模式。因此,用户无法使用包含双引号的属性查询 trace,即使从用户界面中的下拉菜单选择了这些值。在这个版本中,Red Hat OpenShift Cluster Observability Operator distributed tracing 控制台插件可以正确地处理在属性值中包含双引号的 TraceQL 查询。因此,用户可以使用任何属性值查询 trace,包括包含特殊字符(如双引号)的 trace。
- 只有在部署了故障排除面板时,才会将日志记录视图插件代理到 korrel8r
在此次更新之前,COO 1.2.1 中的日志记录视图插件被配置为将 Red Hat OpenShift Cluster Observability Operator 控制台代理到 korrel8r 服务,即使没有部署故障排除面板
UIPlugin。控制台会尝试连接到不存在的服务,从而导致权限被拒绝。因此,用户在日志记录视图中遇到临时的 "Missing permissions to get logs" 错误信息,它会在 30-60 秒后自行解决,而无需用户干预。在这个版本中,Cluster Observability Operator 仅在部署故障排除面板
UIPlugin时,在日志记录视图插件中配置 korrel8r 代理。因此,在没有故障排除面板的情况下,用户在查看日志时不再遇到假的权限错误。- 分布式追踪搜索字段支持键盘导航
在此次更新之前,分布式追踪控制台插件搜索字段不支持仅限键盘的导航。当用户输入过滤器值并按
Enter选择它时,页面会重置为租户选择屏幕,而不是应用过滤器。因此,只有键盘的用户无法通过服务名称或其他属性过滤 trace,并被强制使用基于鼠标的选择。在这个版本中,Red Hat OpenShift Cluster Observability Operator distributed tracing 控制台插件可以正确地处理搜索字段中的
Enter键。因此,用户可以使用仅限键盘的导航应用 trace 过滤器,从而提高了可访问性。UIPlugin配置更改移除禁用的功能 pod在此次更新之前,COO 1.2.1 中的
UIPlugin控制器不会在用户更新配置时为禁用的功能删除 pod。当用户在UIPlugin规格中设置perses.enabled: false或incidents.enabled: false时,关联的 pod (perses-0 和 health-analyzer)会继续运行。因此,用户无法禁用 Perses 仪表板或事件功能,禁用禁用的组件仍然消耗集群资源。在这个版本中,Cluster Observability Operator 在
UIPlugin配置中被禁用时可以正确地删除 pod。因此,用户可以通过更新UIPlugin规格来启用或禁用 Perses 和 eventss 功能,相关的 pod 会相应地创建或删除。
1.1.3. CVE 复制链接链接已复制到粘贴板!
1.2. Cluster Observability Operator 1.2.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.2.2:
1.2.1. 程序错误修复 复制链接链接已复制到粘贴板!
在此次更新之前,安装事件检测功能可能会间歇性失败。症状包括事件检测 UI 会被显示,但没有包括任何数据。另外,health-analyzer
ServiceMonitor资源处于失败状态,错误信息tls: failed to verify certificate: x509。在这个版本中,事件检测功能会被正确安装。(COO-1062)如果您要从包括这个程序错误的 1.2.1 升级,您必须重新创建监控 UI 插件来解决这个问题。
1.2.2. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.2.2 中已知的问题:
安装版本 1.2.2 或从版本 1.0 升级时,监控插件的
UIPlugin资源可能会损坏。当您也部署了分布式追踪、故障排除面板和 Advance Cluster Management (ACM) 以及监控 UI 插件时,会出现这种情况。您可以通过重新创建 UI 插件来解决这个问题。(COO-1051)如果您之前已在 1.2.1 中解决了这个问题,然后升级到 1.2.2,这个问题不会重新出现。
1.3. Cluster Observability Operator 1.2.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.2.1:
1.3.1. 程序错误修复 复制链接链接已复制到粘贴板!
- 在此次更新之前,在 Operator 版本 1.2 升级过程中会保留旧的版本标签 matcher。这会导致 Perses 仪表板不可用。在这个版本中,版本标签会被删除,Perses 仪表板会被正确协调。
1.3.2. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.2.1 中已知的问题:
-
事件检测功能的安装可能会间歇性失败。症状包括事件检测 UI 会被显示,但没有包括任何数据。另外,health-analyzer
ServiceMonitor资源处于失败状态,错误信息tls: failed to verify certificate: x509。您可以通过升级到 1.2.2 并重新创建监控 UI 插件来解决这个问题。(COO-1062) -
安装版本 1.2.1 或从版本 1.0 升级时,监控插件的
UIPlugin资源可能会损坏。当您也部署了分布式追踪、故障排除面板和 Advance Cluster Management (ACM) 以及监控 UI 插件时,会出现这种情况。您可以通过重新创建 UI 插件来解决这个问题。(COO-1051)
1.4. Cluster Observability Operator 1.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.2:
1.4.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 除了之前支持的 ViaQ 方案外,日志记录 UI 插件还支持 OTEL 格式。(COO-816)
- 在安装监控 UI 插件时,会默认部署加速器仪表板。(COO-942)
- 现在,为 Korrel8r 显示每个图形节点的多个结果。(COO-785)
- 现在,在事件检测面板中可以直接进入单个事件详情,这启用了 Red Hat Advanced Cluster Management (RHACM) 2.14 中的事件概述功能。(COO-977,ACM-18751)
- 高级过滤功能已添加到追踪视图中。(COO-979)
- 分布式追踪 UI 插件的状态现在是正式发布 (GA),支持 Patternfly 4, 5 和 6。(COO-873)
1.4.2. 程序错误修复 复制链接链接已复制到粘贴板!
1.4.3. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.2.0 中已知的问题:
- 当从 COO 1.1.1 升级到 COO 1.2 时,Perses 仪表板不会被正确协调,这需要重新安装监控 UI 插件。(COO-978)
1.5. Cluster Observability Operator 1.1.1 复制链接链接已复制到粘贴板!
1.5.1. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,在从 Cluster Observability Operator 1.0 升级时,许多集群中的
observability-operator和perses-operatorpod 因OutOfMemory错误而进入CrashLoopBackOff状态,。此发行版本解决了这个问题。(COO-784)
1.6. Cluster Observability Operator 1.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.1:
1.6.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
1.6.2. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.1.0 中已知的问题:
在从 Cluster Observability Operator 1.0 升级后,
observability-operator和perses-operatorpod 会因为OutOfMemory错误进入CrashLoopBackOff状态。知识库文章 ClusterObservability and perses operator pod in CrashLoopBackOff due to OOMKilled in RHOCP4 中提供了一个临时解决方案。
这个问题在 COO-784 中跟踪。
1.6.3. 程序错误修复 复制链接链接已复制到粘贴板!
- 在以前的版本中,日志记录 UI 插件不支持设置自定义 LokiStack 名称或命名空间。此发行版本解决了这个问题。(COO-332)
1.7. Cluster Observability Operator 1.0 复制链接链接已复制到粘贴板!
1.7.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
-
现在,您可以在 Prometheus CR 中配置 Alertmanager
scheme和tlsConfig字段。(COO-219)
对于故障排除面板的扩展技术预览,增加了对与 Kubernetes 资源定位 trace 的支持,并直接使用其他可观察信号,包括日志、警报、指标和网络事件。(COO-450)
-
当进入到追踪页时,您可以通过点 web 控制台中的 Observe → Tracing 来选择 Tempo 实例和租户。预览故障排除面板仅适用于
openshift-tracing / platform实例和platform租户。 - 故障排除面板在 Administrator 视角中有最佳效果。由于某些后端中的授权问题,它在 Developer 视角中具有有限的功能,特别是 Prometheus 用于指标和警报。这将在以后的发行版本中解决。
-
当进入到追踪页时,您可以通过点 web 控制台中的 Observe → Tracing 来选择 Tempo 实例和租户。预览故障排除面板仅适用于
下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:
| COO 版本 | OCP 版本 | 分布式追踪 | 日志记录 | 平面故障排除 |
|---|---|---|---|---|
| 1.0 | 4.12 - 4.15 | ✔ | ✔ | ✘ |
| 1.0 | 4.16+ | ✔ | ✔ | ✔ |
1.7.2. CVE 复制链接链接已复制到粘贴板!
1.7.3. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,COO 安装的默认命名空间是
openshift-operators。在这个版本中,defaullt 命名空间会更改为openshift-cluster-observability-operator。(COO-32) -
在以前的版本中,
korrel8r只能解析时间序列选择器表达式。在这个版本中,korrel8r可以解析任何有效的 PromQL 表达式,以提取用于关联性的时间序列选择器。(COO-558) - 在以前的版本中,当从分布式 Tracing UI 插件查看 Tempo 实例时,scatter 图表图表显示 trace 持续时间无法正确呈现。bubble 大小太大,并在 x 和 y 轴间有重叠。在这个版本中,图形可以被正确呈现。(COO-319)
1.8. 较旧的、技术预览版本中这个功能可用 复制链接链接已复制到粘贴板!
下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:
| COO 版本 | OCP 版本 | 仪表板 | 分布式追踪 | 日志记录 | 平面故障排除 |
|---|---|---|---|---|---|
| 0.2.0 | 4.11 | ✔ | ✘ | ✘ | ✘ |
| 0.3.0+, 0.4.0+ | 4.11 - 4.15 | ✔ | ✔ | ✔ | ✘ |
| 0.3.0+, 0.4.0+ | 4.16+ | ✔ | ✔ | ✔ | ✔ |
1.9. Cluster Observability Operator 0.4.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.4.1:
1.9.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 现在,您可以为 Prometheus 和 Alertmanager 配置 WebTLS。
1.9.2. CVE 复制链接链接已复制到粘贴板!
1.9.3. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,当您删除仪表板 UI 插件时,
consoles.operator.openshift.io资源仍然会包含console-dashboards-plugin。此发行版本解决了这个问题。(COO-152) - 在以前的版本中,Web 控制台没有显示 Red Hat COO 的正确图标。此发行版本解决了这个问题。(COO-353)
- 在以前的版本中,当您从 web 控制台安装 COO 时,support 部分会包含无效的链接。此发行版本解决了这个问题。(COO-354)
- 在以前的版本中,用于 COO 的集群服务版本 (CSV)链接到文档的非官方版本。此发行版本解决了这个问题。(COO-356)
1.10. Cluster Observability Operator 0.4.0 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.4.0:
1.10.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
1.10.1.1. UI 插件故障排除 复制链接链接已复制到粘贴板!
- UI 面板的故障排除已被改进,您现在可以选择并专注于特定的启动信号。
- 通过选择深度选项,可以对 Korrel8r 查询有更多了解。
-
OpenShift Container Platform 版本 4.17+ 的用户可从 Application Launcher
访问故障排除 UI 面板。另外,在 4.16+ 版本中,您可以点 Observe → Alerting 在 web 控制台中访问它。
如需更多信息,请参阅 UI 插件故障排除。
1.10.1.2. 分布式追踪 UI 插件 复制链接链接已复制到粘贴板!
- 分布式追踪 UI 插件已被改进,现在可以使用 Gantt chart 探索 trace。
如需更多信息,请参阅分布式追踪 UI 插件。
1.10.2. 程序错误修复 复制链接链接已复制到粘贴板!
- 在以前的版本中,普通用户无法通过点 Observe → Logs 在 web 控制台的 Developer 视角中访问指标。此发行版本解决了这个问题。(COO-288)
- 在以前的版本中,故障排除 UI 插件使用了错误的过滤用于网络观察性。此发行版本解决了这个问题。(COO-299)
- 在以前的版本中,故障排除 UI 插件生成一个不正确的 URL 用于 pod 标签搜索。此发行版本解决了这个问题。(COO-298)
-
在以前的版本中,分布式追踪 UI 插件中有一个授权漏洞。此发行版本解决了这个问题,并且仅使用多租户
TempoStack和TempoMonolithic实例进一步强化分布式追踪 UI 插件。
1.11. Cluster Observability Operator 0.3.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.3.2:
1.11.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
-
在这个版本中,您可以使用带有
MonitoringStack组件的容限和节点选择器。
1.11.2. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,日志记录
UIPlugin没有处于Available状态,当在一个特定版本的 OpenShift Container Platform 上安装时,日志记录 pod 不会被创建。此发行版本解决了这个问题。(COO-260)
1.12. Cluster Observability Operator 0.3.0 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.3.0:
1.12.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 在这个版本中,Cluster Observability Operator 添加了对将来的 OpenShift Container Platform observability Web 控制台 UI 插件和可观察性组件的后端支持。
1.13. Cluster Observability Operator 0.2.0 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.2.0 :
1.13.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 在这个版本中,Cluster Observability Operator 支持为 OpenShift Container Platform Web 控制台界面(UI)安装和管理与可观察性相关的插件。(COO-58)
1.14. Cluster Observability Operator 0.1.3 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.1.3:
1.14.1. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,如果您试图访问
http://<prometheus_url>:9090/graph的 Prometheus web 用户界面(UI),会显示以下出错信息:Error open React index.html: open web/ui/static/react/index.html: no such file or directory。此发行版本解决了这个问题,Prometheus Web UI 现在可以正确显示。(COO-34)
1.15. Cluster Observability Operator 0.1.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.1.2:
1.15.1. CVE 复制链接链接已复制到粘贴板!
1.15.2. 程序错误修复 复制链接链接已复制到粘贴板!
- 在以前的版本中,某些集群服务版本 (CSV) 注解没有包括在 COO 的元数据中。由于这些缺少的注解,某些 COO 功能没有出现在软件包清单或 OperatorHub 用户界面中。此发行版本添加了缺少的注解,从而解决了这个问题。(COO-11)
- 在以前的版本中,COO 的自动更新无法正常工作,Operator 的较新版本不会自动替换旧版本,即使 OperatorHub 中提供了更新的版本。此发行版本解决了这个问题。(COO-12)
-
在以前的版本中,Thanos Querier 只侦听 127.0.0.1 的端口 9090 (
localhos)上的网络流量,如果您试图访问 Thanos Querier 服务,这会导致502 Bad Gateway错误。在这个版本中,Thanos Querier 配置已被更新,因此组件现在侦听默认端口(10902),从而解决了这个问题。现在,您还可以通过服务器端应用(SSA)修改端口,并在需要时添加代理链。(COO-14)
1.16. Cluster Observability Operator 0.1.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.1.1:
1.16.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
此发行版本更新了 Cluster Observability Operator,以支持在受限网络中或断开连接的环境中安装 Operator。
1.17. Cluster Observability Operator 0.1 复制链接链接已复制到粘贴板!
此发行版本在 OperatorHub 上提供了 Cluster Observability Operator 的技术预览版本。