Red Hat OpenShift Cluster Observability Operator 发行注记
OpenShift Cluster Observability Operator 发行版本中的主要新功能及变化信息。
摘要
第 1 章 Cluster Observability Operator 发行注记 复制链接链接已复制到粘贴板!
Cluster Observability Operator (COO) 是一个可选的 OpenShift Container Platform Operator,它可让管理员创建独立监控堆栈,供不同的服务和用户使用。
COO 补充 OpenShift Container Platform 的内置监控功能。您可以使用由 Cluster Monitoring Operator (CMO) 管理的默认平台和用户工作负载监控堆栈并行部署它。
本发行注记介绍了 OpenShift Container Platform 中 Cluster Observability Operator 的开发。
下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:
COO 版本 | OCP 版本 | 分布式追踪 | 日志记录 | 故障排除面板 | ACM 警报 | 事件检测 |
---|---|---|---|---|---|---|
1.1+ | 4.12 - 4.14 | ✔ | ✔ | ✘ | ✘ | ✘ |
1.1+ | 4.15 | ✔ | ✔ | ✘ | ✔ | ✘ |
1.1+ | 4.16 - 4.18 | ✔ | ✔ | ✔ | ✔ | ✘ |
1.2+ | 4.19+ | ✔ | ✔ | ✔ | ✔ | ✔ |
从 OpenShift Container Platform 4.19 开始,Web 控制台中的视角会统一。Developer 视角不再默认启用。
所有用户都可以与所有 OpenShift Container Platform Web 控制台功能交互。但是,如果您不是集群所有者,您可能需要从集群所有者请求权限。
您仍然可以启用 Developer 视角。在 web 控制台中的 Getting Started 窗格中,您可以浏览控制台,查找有关设置集群的信息,查看启用 Developer 视角的快速启动,并按照链接探索新功能。
1.1. Cluster Observability Operator 1.2.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.2.2:
1.1.1. 程序错误修复 复制链接链接已复制到粘贴板!
在此次更新之前,安装事件检测功能可能会间歇性失败。症状包括事件检测 UI 会被显示,但没有包括任何数据。另外,health-analyzer
ServiceMonitor
资源处于失败状态,错误信息tls: failed to verify certificate: x509
。在这个版本中,事件检测功能会被正确安装。(COO-1062)如果您要从包括这个程序错误的 1.2.1 升级,您必须重新创建监控 UI 插件来解决这个问题。
1.1.2. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.2.2 中已知的问题:
安装版本 1.2.2 或从版本 1.0 升级时,监控插件的
UIPlugin
资源可能会损坏。当您也部署了分布式追踪、故障排除面板和 Advance Cluster Management (ACM) 以及监控 UI 插件时,会出现这种情况。您可以通过重新创建 UI 插件来解决这个问题。(COO-1051)如果您之前已在 1.2.1 中解决了这个问题,然后升级到 1.2.2,这个问题不会重新出现。
1.2. Cluster Observability Operator 1.2.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.2.1:
1.2.1. 程序错误修复 复制链接链接已复制到粘贴板!
- 在此次更新之前,在 Operator 版本 1.2 升级过程中会保留旧的版本标签 matcher。这会导致 Perses 仪表板不可用。在这个版本中,版本标签会被删除,Perses 仪表板会被正确协调。
1.2.2. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.2.1 中已知的问题:
-
事件检测功能的安装可能会间歇性失败。症状包括事件检测 UI 会被显示,但没有包括任何数据。另外,health-analyzer
ServiceMonitor
资源处于失败状态,错误信息tls: failed to verify certificate: x509
。您可以通过升级到 1.2.2 并重新创建监控 UI 插件来解决这个问题。(COO-1062) -
安装版本 1.2.1 或从版本 1.0 升级时,监控插件的
UIPlugin
资源可能会损坏。当您也部署了分布式追踪、故障排除面板和 Advance Cluster Management (ACM) 以及监控 UI 插件时,会出现这种情况。您可以通过重新创建 UI 插件来解决这个问题。(COO-1051)
1.3. Cluster Observability Operator 1.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.2:
1.3.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 除了之前支持的 ViaQ 方案外,日志记录 UI 插件还支持 OTEL 格式。(COO-816)
- 在安装监控 UI 插件时,会默认部署加速器仪表板。(COO-942)
- 现在,为 Korrel8r 显示每个图形节点的多个结果。(COO-785)
- 现在,在事件检测面板中可以直接进入单个事件详情,这启用了 Red Hat Advanced Cluster Management (RHACM) 2.14 中的事件概述功能。(COO-977,ACM-18751)
- 高级过滤功能已添加到追踪视图中。(COO-979)
- 分布式追踪 UI 插件的状态现在是正式发布 (GA),支持 Patternfly 4, 5 和 6。(COO-873)
1.3.2. 程序错误修复 复制链接链接已复制到粘贴板!
1.3.3. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.2.0 中已知的问题:
- 当从 COO 1.1.1 升级到 COO 1.2 时,Perses 仪表板不会被正确协调,这需要重新安装监控 UI 插件。(COO-978)
1.4. Cluster Observability Operator 1.1.1 复制链接链接已复制到粘贴板!
1.4.1. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,在从 Cluster Observability Operator 1.0 升级时,许多集群中的
observability-operator
和perses-operator
pod 因OutOfMemory
错误而进入CrashLoopBackOff
状态,。此发行版本解决了这个问题。(COO-784)
1.5. Cluster Observability Operator 1.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 1.1:
1.5.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
1.5.2. 已知问题 复制链接链接已复制到粘贴板!
Cluster Observability Operator 1.1.0 中已知的问题:
在从 Cluster Observability Operator 1.0 升级后,
observability-operator
和perses-operator
pod 会因为OutOfMemory
错误进入CrashLoopBackOff
状态。知识库文章 ClusterObservability and perses operator pod in CrashLoopBackOff due to OOMKilled in RHOCP4 中提供了一个临时解决方案。
这个问题在 COO-784 中跟踪。
1.5.3. 程序错误修复 复制链接链接已复制到粘贴板!
- 在以前的版本中,日志记录 UI 插件不支持设置自定义 LokiStack 名称或命名空间。此发行版本解决了这个问题。(COO-332)
1.6. Cluster Observability Operator 1.0 复制链接链接已复制到粘贴板!
1.6.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
-
现在,您可以在 Prometheus CR 中配置 Alertmanager
scheme
和tlsConfig
字段。(COO-219)
对于故障排除面板的扩展技术预览,增加了对与 Kubernetes 资源定位 trace 的支持,并直接使用其他可观察信号,包括日志、警报、指标和网络事件。(COO-450)
-
当进入到追踪页时,您可以通过点 web 控制台中的 Observe → Tracing 来选择 Tempo 实例和租户。预览故障排除面板仅适用于
openshift-tracing / platform
实例和platform
租户。 - 故障排除面板在 Administrator 视角中有最佳效果。由于某些后端中的授权问题,它在 Developer 视角中具有有限的功能,特别是 Prometheus 用于指标和警报。这将在以后的发行版本中解决。
-
当进入到追踪页时,您可以通过点 web 控制台中的 Observe → Tracing 来选择 Tempo 实例和租户。预览故障排除面板仅适用于
下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:
COO 版本 | OCP 版本 | 分布式追踪 | 日志记录 | 平面故障排除 |
---|---|---|---|---|
1.0 | 4.12 - 4.15 | ✔ | ✔ | ✘ |
1.0 | 4.16+ | ✔ | ✔ | ✔ |
1.6.2. CVE 复制链接链接已复制到粘贴板!
1.6.3. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,COO 安装的默认命名空间是
openshift-operators
。在这个版本中,defaullt 命名空间会更改为openshift-cluster-observability-operator
。(COO-32) -
在以前的版本中,
korrel8r
只能解析时间序列选择器表达式。在这个版本中,korrel8r
可以解析任何有效的 PromQL 表达式,以提取用于关联性的时间序列选择器。(COO-558) - 在以前的版本中,当从分布式 Tracing UI 插件查看 Tempo 实例时,scatter 图表图表显示 trace 持续时间无法正确呈现。bubble 大小太大,并在 x 和 y 轴间有重叠。在这个版本中,图形可以被正确呈现。(COO-319)
1.7. 较旧的、技术预览版本中这个功能可用 复制链接链接已复制到粘贴板!
下表提供了有关根据 Cluster Observability Operator 和 OpenShift Container Platform 版本提供哪些功能的信息:
COO 版本 | OCP 版本 | 仪表板 | 分布式追踪 | 日志记录 | 平面故障排除 |
---|---|---|---|---|---|
0.2.0 | 4.11 | ✔ | ✘ | ✘ | ✘ |
0.3.0+, 0.4.0+ | 4.11 - 4.15 | ✔ | ✔ | ✔ | ✘ |
0.3.0+, 0.4.0+ | 4.16+ | ✔ | ✔ | ✔ | ✔ |
1.8. Cluster Observability Operator 0.4.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.4.1:
1.8.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 现在,您可以为 Prometheus 和 Alertmanager 配置 WebTLS。
1.8.2. CVE 复制链接链接已复制到粘贴板!
1.8.3. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,当您删除仪表板 UI 插件时,
consoles.operator.openshift.io
资源仍然会包含console-dashboards-plugin
。此发行版本解决了这个问题。(COO-152) - 在以前的版本中,Web 控制台没有显示 Red Hat COO 的正确图标。此发行版本解决了这个问题。(COO-353)
- 在以前的版本中,当您从 web 控制台安装 COO 时,support 部分会包含无效的链接。此发行版本解决了这个问题。(COO-354)
- 在以前的版本中,用于 COO 的集群服务版本 (CSV)链接到文档的非官方版本。此发行版本解决了这个问题。(COO-356)
1.9. Cluster Observability Operator 0.4.0 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.4.0:
1.9.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
1.9.1.1. UI 插件故障排除 复制链接链接已复制到粘贴板!
- UI 面板的故障排除已被改进,您现在可以选择并专注于特定的启动信号。
- 通过选择深度选项,可以对 Korrel8r 查询有更多了解。
-
OpenShift Container Platform 版本 4.17+ 的用户可从 Application Launcher
访问故障排除 UI 面板。另外,在 4.16+ 版本中,您可以点 Observe → Alerting 在 web 控制台中访问它。
如需更多信息,请参阅 UI 插件故障排除。
1.9.1.2. 分布式追踪 UI 插件 复制链接链接已复制到粘贴板!
- 分布式追踪 UI 插件已被改进,现在可以使用 Gantt chart 探索 trace。
如需更多信息,请参阅分布式追踪 UI 插件。
1.9.2. 程序错误修复 复制链接链接已复制到粘贴板!
- 在以前的版本中,普通用户无法通过点 Observe → Logs 在 web 控制台的 Developer 视角中访问指标。此发行版本解决了这个问题。(COO-288)
- 在以前的版本中,故障排除 UI 插件使用了错误的过滤用于网络观察性。此发行版本解决了这个问题。(COO-299)
- 在以前的版本中,故障排除 UI 插件生成一个不正确的 URL 用于 pod 标签搜索。此发行版本解决了这个问题。(COO-298)
-
在以前的版本中,分布式追踪 UI 插件中有一个授权漏洞。此发行版本解决了这个问题,并且仅使用多租户
TempoStack
和TempoMonolithic
实例进一步强化分布式追踪 UI 插件。
1.10. Cluster Observability Operator 0.3.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.3.2:
1.10.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
-
在这个版本中,您可以使用带有
MonitoringStack
组件的容限和节点选择器。
1.10.2. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,日志记录 UIPlugin 没有处于
Available
状态,当在一个特定版本的 OpenShift Container Platform 上安装时,日志记录 pod 不会被创建。此发行版本解决了这个问题。(COO-260)
1.11. Cluster Observability Operator 0.3.0 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.3.0:
1.11.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 在这个版本中,Cluster Observability Operator 添加了对将来的 OpenShift Container Platform observability Web 控制台 UI 插件和可观察性组件的后端支持。
1.12. Cluster Observability Operator 0.2.0 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.2.0 :
1.12.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
- 在这个版本中,Cluster Observability Operator 支持为 OpenShift Container Platform Web 控制台界面(UI)安装和管理与可观察性相关的插件。(COO-58)
1.13. Cluster Observability Operator 0.1.3 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.1.3:
1.13.1. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,如果您试图访问
http://<prometheus_url>:9090/graph
的 Prometheus web 用户界面(UI),会显示以下出错信息:Error open React index.html: open web/ui/static/react/index.html: no such file or directory
。此发行版本解决了这个问题,Prometheus Web UI 现在可以正确显示。(COO-34)
1.14. Cluster Observability Operator 0.1.2 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.1.2:
1.14.1. CVE 复制链接链接已复制到粘贴板!
1.14.2. 程序错误修复 复制链接链接已复制到粘贴板!
- 在以前的版本中,某些集群服务版本 (CSV) 注解没有包括在 COO 的元数据中。由于这些缺少的注解,某些 COO 功能没有出现在软件包清单或 OperatorHub 用户界面中。此发行版本添加了缺少的注解,从而解决了这个问题。(COO-11)
- 在以前的版本中,COO 的自动更新无法正常工作,Operator 的较新版本不会自动替换旧版本,即使 OperatorHub 中提供了更新的版本。此发行版本解决了这个问题。(COO-12)
-
在以前的版本中,Thanos Querier 只侦听 127.0.0.1 的端口 9090 (
localhos
)上的网络流量,如果您试图访问 Thanos Querier 服务,这会导致502 Bad Gateway
错误。在这个版本中,Thanos Querier 配置已被更新,因此组件现在侦听默认端口(10902),从而解决了这个问题。现在,您还可以通过服务器端应用(SSA)修改端口,并在需要时添加代理链。(COO-14)
1.15. Cluster Observability Operator 0.1.1 复制链接链接已复制到粘贴板!
以下公告可用于 Cluster Observability Operator 0.1.1:
1.15.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
此发行版本更新了 Cluster Observability Operator,以支持在受限网络中或断开连接的环境中安装 Operator。
1.16. Cluster Observability Operator 0.1 复制链接链接已复制到粘贴板!
此发行版本在 OperatorHub 上提供了 Cluster Observability Operator 的技术预览版本。