第 3 章 Network Observability Operator 发行注记归档
3.1. Network Observability Operator 发行注记归档 复制链接链接已复制到粘贴板!
本发行注记介绍了 OpenShift Container Platform 中 Network Observability Operator 的过去的开发。它们仅用于参考目的。
Network Observability Operator 可让管理员观察和分析 OpenShift Container Platform 集群的网络流量流。
3.1.1. Network Observability Operator 1.9.3 公告 复制链接链接已复制到粘贴板!
以下公告可用于 Network Observability Operator 1.9.3:
3.1.2. Network Observability Operator 1.9.2 公告 复制链接链接已复制到粘贴板!
以下公告可用于 Network Observability Operator 1.9.2 :
3.1.3. Network observability 1.9.2 程序错误修复 复制链接链接已复制到粘贴板!
-
在此次更新之前,OpenShift Container Platform 版本 4.15 及更早版本不支持
TC_ATACH_MODE配置。这会导致命令行界面(CLI)错误,并阻止对数据包和流的观察。在这个版本中,对这些旧版本调整了流量控制 eXtension (TCX) hook 附加模式。这消除了tcxhook 错误,并启用流和数据包观察。
3.1.4. Network Observability Operator 1.7.0 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.7.0 发行版本的公告。
3.1.5. Network Observability Operator 1.7.0 的新功能和增强 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.7.0 发行版本中的以下新功能和增强。
3.1.5.1. OpenTelemetry 支持 复制链接链接已复制到粘贴板!
现在,您可以将增强的网络流导出到兼容的 OpenTelemetry 端点,如红帽构建的 OpenTelemetry。如需更多信息,请参阅导出增强的网络流数据。
3.1.5.2. Network Observability Developer 视角 复制链接链接已复制到粘贴板!
现在,您可以在 Developer 视角中使用 Network Observability。如需更多信息,请参阅 OpenShift Container Platform 控制台集成。
3.1.5.3. TCP 标记过滤 复制链接链接已复制到粘贴板!
现在,您可以使用 tcpFlags 过滤器来限制 eBPF 程序处理的数据包卷。如需更多信息,请参阅流过滤器配置参数、eBPF 流规则过滤器,以及使用 FlowMetric API 和 TCP 标记来检测 SYN 填充。
3.1.5.4. OpenShift Virtualization 的网络可观察性 复制链接链接已复制到粘贴板!
您可以通过识别来自连接到二级网络的虚拟机(如通过 Open Virtual Network (OVN)-Kubernetes)的 eBPF 增强网络流来观察 OpenShift Virtualization 设置中的网络模式。如需更多信息,请参阅为 Network Observability 配置虚拟机(VM)二级网络接口。
3.1.5.5. 网络策略在 FlowCollector 自定义资源 (CR) 中部署 复制链接链接已复制到粘贴板!
在这个版本中,您可以配置 FlowCollector 自定义资源(CR)来为网络可观察性部署网络策略。在以前的版本中,如果需要网络策略,您必须手动创建一个。手动创建网络策略的选项仍然可用。如需更多信息,请参阅使用 FlowCollector 自定义资源配置入口网络策略。
3.1.5.6. FIPS 合规性 复制链接链接已复制到粘贴板!
您可以在以 FIPS 模式运行的 OpenShift Container Platform 集群中安装和使用 Network Observability Operator。
重要要为集群启用 FIPS 模式,您必须从配置为以 FIPS 模式操作的 Red Hat Enterprise Linux (RHEL) 计算机运行安装程序。有关在 RHEL 中配置 FIPS 模式的更多信息,请参阅将 RHEL 切换到 FIPS 模式。
当以 FIPS 模式运行 Red Hat Enterprise Linux (RHEL) 或 Red Hat Enterprise Linux CoreOS (RHCOS) 时,OpenShift Container Platform 核心组件使用 RHEL 加密库,只有在 x86_64, ppc64le, 和 s390x 架构上的库被提交到 NIST 进行 FIPS 140-2/140-3 Validation。
3.1.5.7. eBPF 代理增强 复制链接链接已复制到粘贴板!
eBPF 代理有以下改进:
-
如果 DNS 服务映射到与
53不同的端口,您可以使用spec.agent.ebpf.advanced.env.DNS_TRACKING_PORT指定此 DNS 跟踪端口。 - 现在,您可以将两个端口用于传输协议(TCP、UDP 或 SCTP)过滤规则。
- 现在,您可以通过将 protocol 字段留空来过滤带有通配符协议的传输端口。
如需更多信息,请参阅 FlowCollector API 规格。
3.1.5.8. Network Observability CLI 复制链接链接已复制到粘贴板!
Network Observability CLI (oc netobserv) 现已正式发布。从 1.6 技术预览版本开始进行了以下改进:
- 现在,与流捕获类似的数据包捕获都有 eBPF 丰富的过滤器。
-
现在,您可以在流和数据包捕获中使用过滤
tcp_flags。 - 当达到 max-bytes 或 max-time 时,auto-teardown 选项可用。
如需更多信息,请参阅关于 Network Observability CLI 和 Network Observability CLI 1.7.0。
3.1.6. Network Observability Operator 1.7.0 修复的问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.7.0 发行版本中的以下固定问题。
-
在以前的版本中,当使用 RHEL 9.2 实时内核时,一些 Webhook 无法正常工作。现在,提供了一个修复程序,用于检查是否使用了这个 RHEL 9.2 实时内核。如果使用内核,则会显示有关无法正常工作的功能的警告,如数据包丢弃,以及使用
s390x架构时的 Round-trip Time。相关的修复包括在 OpenShift 4.16 及更高版本中。(NETOBSERV-1808) - 在以前的版本中,在 Overview 选项卡中的 Manage 面板 对话框中,根据 total, bar, donut, or line 过滤不会显示结果。现在,可以正确地过滤可用的面板。(NETOBSERV-1540)
-
在以前的版本中,在高力下,eBPF 代理容易进入一个会生成大量小的流而几乎不聚合它们的状态。在这个版本中,在高压的情况下聚合过程仍然可以进行,因此会创建较少的流。在这个版本中,改进了在 eBPF 代理中,以及
flowlogs-pipeline和 Loki 中的资源消耗。(NETOBSERV-1564) -
在以前的版本中,当启用了
workload_flows_total指标而不是namespace_flows_total指标时,健康仪表板会停止显示By namespace流图表。在这个版本中,当启用了workload_flows_total时,健康仪表板会显示流图表。(NETOBSERV-1746) -
在以前的版本中,当您使用
FlowMetricsAPI 生成自定义指标并稍后修改其标签时,指标会停止填充,并在flowlogs-pipeline日志中显示错误。在这个版本中,您可以修改标签,在flowlogs-pipeline日志中不再引发错误。(NETOBSERV-1748) -
在以前的版本中,默认的 Loki
WriteBatchSize配置不一致:在FlowCollectorCRD 中被设置为 100 KB,在 OLM 示例或默认配置中被设置为 10 MB。现在,它们都一致地设置为 10,这通常会提供更好的性能并减少资源占用量。(NETOBSERV-1766) - 在以前的版本中,如果您没有指定协议,则端口上的 eBPF 流过滤器会被忽略。在这个版本中,您可以独立于端口和或协议设置 eBPF 流过滤器。(NETOBSERV-1779)
- 在以前的版本中,Topology 视图中隐藏了从 Pod 到服务的流量。只有从 Services 到 Pod 的返回流量才可见。在这个版本中,流量会被正确显示。(NETOBSERV-1788)
- 在以前的版本中,当具有 Network Observability 访问权限的非集群管理员用户试图过滤触发自动完成的内容(如命名空间)时,控制台插件中的错误会在控制台插件中看到一个错误。在这个版本中,不会显示错误,自动完成会返回预期的结果。( NETOBSERV-1798)
- 当添加二级接口支持时,您必须多次使用 netlink 注册每个网络命名空间,以了解接口通知。同时,因为使用 TCX hook,不成功的处理程序会导致泄漏文件描述符。这与 TC 不同,在接口停止时需要显式删除处理程序。另外,当删除网络命名空间时,没有 Go 关闭频道事件来终止 netlink goroutine 套接字,这会导致 go 线程泄漏。现在,在创建和删除 pod 时,不会再泄漏文件描述符或 go 线程。(NETOBSERV-1805)
- 在以前的版本中,即使流 JSON 中相关的数据可用,ICMP 类型和值在流量流表中显示 'n/a'。在这个版本中,ICMP 列在流表中按预期显示相关值。(NETOBSERV-1806)
- 在以前的版本中,在控制台插件中,无法为未设置的字段过滤,如取消设置 DNS 延迟。在这个版本中,可以对未设置的字段进行过滤。(NETOBSERV-1816)
- 在以前的版本中,当您在 OpenShift Web 控制台插件中清除过滤器时,有时会在进入另一个页面后重新应用过滤器,并返回带有过滤器的页面。在这个版本中,过滤器在清除后不会意外地重新显示它们。(NETOBSERV-1733)
3.1.7. Network Observability Operator 1.7.0 已知问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.7.0 发行版本中的以下已知问题。
- 当您将 must-gather 工具与网络可观察性搭配使用时,当集群启用了 FIPS 时,不会收集日志。(NETOBSERV-1830)
当在
FlowCollector中启用spec.networkPolicy时,它会在netobserv命名空间中安装网络策略,无法使用FlowMetricsAPI。网络策略块调用验证 Webhook。作为临时解决方案,请使用以下网络策略:Copy to Clipboard Copied! Toggle word wrap Toggle overflow
3.1.8. Network Observability Operator 发行注记 1.6.2 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.2 版本的公告。
3.1.9. Network Observability Operator 发行注记 1.6.2 CVE 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.2 版本的 CVE。
3.1.10. Network Observability Operator 发行注记 1.6.2 修复的问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.2 发行版本的固定问题。
- 当添加了二级接口支持时,需要多次使用 netlink 注册每个网络命名空间,以了解接口通知。同时,因为使用 TCX hook,不成功的处理程序会导致泄漏文件描述符。这与 TC 不同,在接口停止时需要显式删除处理程序。现在,创建和删除 pod 时不再泄漏文件描述符。(NETOBSERV-1805)
3.1.11. Network Observability Operator 发行注记 1.6.2 已知问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.2 发行版本的已知问题。
- 与控制台插件存在兼容性问题,导致无法在 OpenShift Container Platform 集群以后的版本上安装 Network Observability。通过升级到 1.6.2,可以解决这个兼容性问题,Network Observability 可以按预期安装。(NETOBSERV-1737)
3.1.12. Network Observability Operator 发行注记 1.6.1 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.1 版本的公告。
3.1.13. Network Observability Operator 发行注记 1.6.1 CVE 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.1 版本的 CVE。
3.1.14. Network Observability Operator 发行注记 1.6.1 修复的问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.1 发行版本的固定问题。
- 在以前的版本中,关于数据包丢弃的信息(如原因和 TCP 状态)仅在 Loki 数据存储中提供,而不是在 Prometheus 中提供。因此,OpenShift Web 控制台插件 Overview 中的丢弃统计信息仅适用于 Loki。在这个版本中,有关数据包丢弃的信息也添加到指标中,因此您可以在禁用 Loki 时查看丢弃统计信息。(NETOBSERV-1649)
-
当 eBPF 代理
PacketDrop功能被启用,并抽样被配置为一个大于1的值时,报告的丢弃的字节并丢弃数据包会忽略抽样配置。虽然这样做的目的为了不遗漏任何数据丢弃,但这样做的一个副作用是报告的丢弃数据与非丢弃数据的比例变得有倾向性。例如,对于一个非常高的抽样率(如1:1000)中,在控制台插件中观察到的情况是,几乎所有流量都被丢弃。在这个版本中,抽样配置会正确处理丢弃的字节和数据包。(NETOBSERV-1676) - 在以前的版本中,如果首先创建了接口,然后才部署 eBPF 代理,则不会检测到这个 SR-IOV 二级接口。只有在先部署了代理,然后再创建 SR-IOV 接口时,才会检测到它。在这个版本中,无论部署序列是什么,都会检测到 SR-IOV 二级接口。(NETOBSERV-1697)
- 在以前的版本中,当禁用 Loki 时,OpenShift Web 控制台中的 Topology 视图始终会在网络拓扑图旁边的滑块中显示集群和 区域聚合选项,即使未启用相关的功能。在这个版本中,滑块只根据启用的功能显示选项。(NETOBSERV-1705)
-
在以前的版本中,当 Loki 被禁用时,OpenShift Web 控制台第一次加载时,可能会显示错误:
Request failed with status code 400 Loki is disabled。在这个版本中,不再会出现错误。(NETOBSERV-1706) - 在以前的版本中,在 OpenShift Web 控制台的 Topology 视图中,当点击任何图形节点旁边的 Step into 图标时,过滤器不会根据需要应用,从而将重点设置为所选图形节点,从而导致在 OpenShift Web 控制台中显示 Topology 视图的广泛视图。在这个版本中,正确设置了过滤,有效缩小 Topology 的范围。作为此更改的一部分,点节点上的 Step into 图标进入 Resource 范围而不是 Namespaces 范围。(NETOBSERV-1720)
- 在以前的版本中,当 Loki 被禁用时,在 OpenShift Web 控制台的 Topology 视图中,将 Scope 设置为 Owner,点任何图形节点旁的 Step into 图标会使 Scope 变为 Resource,在没有 Loki 的情况下不可用,因此会显示错误消息。在这个版本中,当 Loki 被禁用时,在 Owner 范围中会隐藏 Step into 图标,因此不再会发生此场景。(NETOBSERV-1721)
- 在以前的版本中,当禁用 Loki 时,当设置了一个组时,OpenShift Web 控制台的 Topology 视图中会显示一个错误,但会更改范围,以便组变得无效。在这个版本中,无效的组会被删除,从而导致错误。(NETOBSERV-1722)
-
从 OpenShift web 控制台 Form view 创建
FlowCollector资源时,与 YAML 视图 不同,以下设置被 web 控制台:agent.ebpf.metrics.enable和processor.subnetLabels.openShiftAutoDetect管理。这些设置只能在 YAML 视图中被禁用,不能在 Form 视图中禁用。为避免混淆,这些设置已从 Form 视图中删除。它们仍可在 YAML 视图中访问。(NETOBSERV-1731) - 在以前的版本中,eBPF 代理无法在非正常崩溃前清理安装的流量控制流,例如因为 SIGTERM 信号造成崩溃。这会导致使用相同名称创建多个流量控制流过滤,因为旧的流没有被删除。在这个版本中,在代理启动时,所有之前安装的流量控制流都会被清理。(NETOBSERV-1732)
- 在以前的版本中,当配置自定义子网标签并保持 OpenShift 子网自动检测时,OpenShift 子网优先于自定义子网,从而导致在集群子网中定义自定义标签。在这个版本中,自定义的子网具有优先权,允许在集群子网中定义自定义标签。(NETOBSERV-1734)
3.1.15. Network Observability Operator 发行注记 1.6.0 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.0 版本的公告。
3.1.16. Network Observability Operator 1.6.0 的新功能和增强 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.0 的以下新功能和增强。
现在,在使用 Network Observability Operator 时,您可以使用 Prometheus 指标并依赖 Loki 进行存储。
3.1.16.2. 自定义 metrics API 复制链接链接已复制到粘贴板!
您可以使用 FlowMetrics API 从 flowlogs 数据中创建自定义指标。flowlogs 数据可用于 Prometheus 标签,以便在仪表板上自定义集群信息。您可以为要在流和指标中识别的任何子网添加自定义标签。此功能增强还可用于使用新标签 SrcSubnetLabel 和 DstSubnetLabel 来更轻松地识别外部流量,它们同时存在于流日志和指标中。当存在外部流量时,这些字段为空,它提供了一种方法来识别它。
3.1.16.3. eBPF 性能增强 复制链接链接已复制到粘贴板!
提高了 eBPF 代理的性能,在 CPU 和内存方面有以下更新:
- eBPF 代理现在使用 TCX Webhook 而不是 TC。
NetObserv / Health 仪表板有一个新的部分,显示 eBPF 指标。
- 根据新的 eBPF 指标,当 eBPF 代理丢弃流时,会向您发送警报。
- 现在,因为删除了重复的流,Loki 存储需求会显著减少。现在,使用一个带有相关网络接口列表的非重复的流,而不是使用多个流,每个网络接口都带有独立重复的流。
通过对重复流机制的更新,网络流量表中的Interface和Interface Direction 字段被重命名为 Interfaces 和 Interface Directions,任何使用这些字段的 快速过滤查询都需要更新为使用新的 interfaces 和 ifdirections。
3.1.16.4. 基于 eBPF 集合规则的过滤 复制链接链接已复制到粘贴板!
您可以使用基于规则的过滤来减少创建的流的数量。启用这个选项后,eBPF 代理统计的 Netobserv / Health 仪表板会提供一个过滤的流速率视图。
3.1.17. Network Observability Operator 1.6.0 修复的问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.0 的以下固定问题。
-
在以前的版本中,Operator Lifecycle Manager (OLM)表单中会显示到 OpenShift Container Platform 文档的死链接,用于创建
FlowMetricsAPI。现在,链接已被更新以指向有效的页面。(NETOBSERV-1607) - 在以前的版本中,Operator Hub 中的 Network Observability Operator 描述信息中显示的一个到文档的链接有问题。在这个版本中,这个链接也被修正。(NETOBSERV-1544)
-
在以前的版本中,如果 Loki 被禁用,且 Loki
Mode被设置为LokiStack,或者配置了 Loki manual TLS 配置,Network Observability Operator 仍然会尝试读取 Loki CA 证书。在这个版本中,当 Loki 被禁用时,即使在 Loki 配置中有设置,也不会读 Loki 证书。(NETOBSERV-1647) -
在以前的版本中,Network Observability Operator 的
ocmust-gather插件只适用于amd64架构,并在所有其他架构上都会失败,这是因为对于oc,插件使用了amd64。现在,Network Observability Operatorocmust-gather插件会在任何架构平台上收集日志。 -
在以前的版本中,当使用
不等于逻辑过滤 IP 地址时,Network Observability Operator 会返回请求错误。现在,对于 IP 地址和范围的 IP 过滤,可以正常使用等于和不等于逻辑。(NETOBSERV-1630) -
在以前的版本中,当用户不是管理员时,错误消息与 web 控制台中的 Network Traffic 视图的所选标签页不一致。现在,
user not admin错误可以正确地在任何标签页中显示。(NETOBSERV-1621)
3.1.18. Network Observability Operator 1.6.0 已知问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.6.0 的以下已知问题。
-
当 eBPF 代理
PacketDrop功能被启用,并抽样被配置为一个大于1的值时,报告的丢弃的字节并丢弃数据包会忽略抽样配置。虽然这样做的目的为了不遗漏任何数据丢弃,但这样做的一个副作用是报告的丢弃数据与非丢弃数据的比例变得有倾向性。例如,对于一个非常高的抽样率(如1:1000)中,在控制台插件中观察到的情况是,几乎所有流量都被丢弃。(NETOBSERV-1676) - 在 Overview 选项卡中的 Manage panels 窗口中,过滤 总计,bar,donut, or line 不会显示任何结果。(NETOBSERV-1540)
- 如果首先创建了接口,然后才部署 eBPF 代理,则不会检测到这个 SR-IOV 二级接口。只有在先部署了代理,然后再创建 SR-IOV 接口时,才会检测到它。(NETOBSERV-1697)
- 当禁用 Loki 时,OpenShift Web 控制台中的 Topology 视图始终会在网络拓扑图旁边的滑块中显示集群和 区域聚合选项,即使未启用相关的功能。现在还没有可以解决这个问题的临时解决方案,只能忽略这些滑块选项。(NETOBSERV-1705)
-
当 Loki 被禁用时,OpenShift Web 控制台第一次加载时,可能会显示错误:
Request failed with status code 400 Loki is disabled。作为临时解决方案,您可以继续在 Network Traffic 页面中切换内容,如点 Topology 和 Overview 选项卡。这个错误应该会消失。(NETOBSERV-1706)
3.1.19. Network Observability Operator 1.5.0 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.5 发行版本的以下公告。
3.1.20. Network Observability Operator 1.5.0 的新功能和增强 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.5 的以下新功能和增强。
3.1.20.1. DNS 跟踪增强 复制链接链接已复制到粘贴板!
在 1.5 中,除了 UDP 外,还支持 TCP 协议。在 Network Traffic 页面的 Overview 视图中添加了新的仪表板。
3.1.20.2. 往返时间 (RTT) 复制链接链接已复制到粘贴板!
您可以使用从 fentry/tcp_rcv_ established Extended Berkeley Packet Filter (eBPF) hookpoint 中捕获的 TCP 握手 Round-Trip Time (RTT) 来读取平稳的往返时间(SRTT) 并分析网络流。在 web 控制台中的 Overview、Network Traffic、和 Topology 页面中,您可以监控网络流量,并使用 RTT 指标、过滤和边缘标记进行故障排除。
3.1.20.3. 指标、仪表板和警报增强 复制链接链接已复制到粘贴板!
Observe includeList 规格中定义可用指标。在以前的版本中,这些指标在 ignoreTags 规格中定义。
3.1.20.4. 在没有 Loki 的情况下对网络可观察性的改进 复制链接链接已复制到粘贴板!
您可以使用 DNS、Packet drop 和 RTT 指标为 Netobserv 仪表板创建 Prometheus 警报,即使您不使用 Loki。在以前的网络可观察性版本中(1.4),这些指标仅适用于在 Network Traffic、Overview 和 Topology 视图中查询和分析,这些视图在没有 Loki 的情况下不可用。
3.1.20.5. 可用区 复制链接链接已复制到粘贴板!
您可以配置 FlowCollector 资源来收集有关集群可用区的信息。此配置增强了使用应用到节点的 topology.kubernetes.io/zone 标签值的网络流数据。
3.1.20.6. 主要改进 复制链接链接已复制到粘贴板!
Network Observability Operator 的 1.5 发行版本为 OpenShift Container Platform Web 控制台插件和 Operator 配置添加了改进和新功能。
3.1.20.7. 性能增强 复制链接链接已复制到粘贴板!
spec.agent.ebpf.kafkaBatchSize的默认设置从10MB改为1MB,以便在使用 Kafka 时增强 eBPF 性能。重要当从现有安装升级时,不会在配置中自动设置这个新值。如果您在升级后发现 eBPF 代理内存消耗的性能出现回归的问题,您可以考虑将
kafkaBatchSize减少为一个新值。
3.1.20.8. Web 控制台增强: 复制链接链接已复制到粘贴板!
- 在 DNS 和 RTT 的 Overview 视图中添加了新的面板:Min、Max、P90、P99。
添加了新的面板显示选项:
- 专注于一个面板,同时保持其他面板可查看但没有主要关注。
- 切换图形类型。
- 显示 Top 和 Overall。
- 自定义时间范围 窗口中会显示集合延迟警告。
- 增强了管理面板和管理列弹出窗口内容的可见性。
- 在 web 控制台的 Network Traffic 页面中,可以使用 egress QoS 的 Differentiated Services Code Point (DSCP) 字段来对 QoS DSCP 进行过滤。
3.1.20.9. 配置增强: 复制链接链接已复制到粘贴板!
-
spec.loki.mode规格中的LokiStack模式会自动设置 URL、TLS、集群角色和集群角色绑定,以及authToken值,来简化安装。Manual模式允许对这些设置进行更多控制。 -
API 版本从
flows.netobserv.io/v1beta1更新到flows.netobserv.io/v1beta2。
3.1.21. Network Observability Operator 1.5.0 修复的问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.5 发行版本的以下固定问题。
-
在以前的版本中,如果禁用了 console 插件的自动注册功能,则无法在 web 控制台界面中手动注册 console 插件。如果在
FlowCollector资源中将spec.console.register值设置为false,Operator 会覆盖并清除插件注册。在这个版本中,将spec.console.register值设置为false不会影响控制台插件注册或删除。因此,可以安全地手动注册插件。(NETOBSERV-1134) -
在以前的版本中,使用默认指标设置,NetObserv/Health 仪表板显示一个名为 Flows Overhead 的空图形。这个指标只能通过从
ignoreTags列表中删除 "namespaces-flows" 和 "namespaces" 时才可用。在这个版本中,在使用默认指标设置时,此指标可见。(NETOBSERV-1351) - 在以前的版本中,运行 eBPF 代理的节点无法使用一个特定的集群配置解析。这会导致一连串的后果,并导致无法提供一些流量指标。在这个版本中,eBPF 代理的节点 IP 由 Operator 安全提供,从 pod 状态推断出。现在,缺少的指标会被恢复。(NETOBSERV-1430)
- 在以前的版本中,Loki Operator 的 Loki 错误 'Input size too long' 错误中没有包括可以帮助进行故障排除的额外信息。在这个版本中,帮助信息在 web 控制台中的错误旁显示,并带有直接链接来获得更详细的信息。(NETOBSERV-1464)
-
在以前的版本中,控制台插件读取超时被强制为 30s。使用
FlowCollectorv1beta2API 更新,您可以配置spec.loki.readTimeout规格来根据 Loki OperatorqueryTimeout限制更新这个值。(NETOBSERV-1443) -
在以前的版本中,Operator 捆绑包不会按预期显示 CSV 注解的一些支持功能,如
features.operators.openshift.io/…。在这个版本中,这些注解会在 CSV 中按预期设置。(NETOBSERV-1305) -
在以前的版本中,在协调过程中,
FlowCollector状态有时会在DeploymentInProgress和Ready状态之间转换。在这个版本中,只有在所有底层组件都完全就绪时,状态才会变为Ready。(NETOBSERV-1293)
3.1.22. Network Observability Operator 1.5.0 已知问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.5 发行版本的以下已知问题。
-
当尝试访问 web 控制台时,OCP 4.14.10 上的缓存问题会阻止访问 Observe 视图。Web 控制台显示错误消息:
Failed to get a valid plugin manifest from /api/plugins/monitoring-plugin/.推荐的解决方法是,把集群升级到最新的次版本。如果这无法解决问题,请参阅红帽知识库文章。(NETOBSERV-1493) -
由于 Network Observability Operator 的 1.3.0 发行版本,安装 Operator 会导致出现警告内核污点。此错误的原因是,Network Observability eBPF 代理具有内存限制,可防止预分配整个 hashmap 表。Operator eBPF 代理设置
BPF_F_NO_PREALLOC标志,以便在 hashmap 过内存扩展时禁用预分配。
3.1.23. Network Observability Operator 1.4.2 公告 复制链接链接已复制到粘贴板!
以下公告可用于 Network Observability Operator 1.4.2:
3.1.24. Network Observability Operator 1.4.2 CVE 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.4.2 发行版本中查看以下 CVE。
3.1.25. Network Observability Operator 1.4.1 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.4.1 的以下公告。
3.1.26. Network Observability Operator release 1.4.1 CVE 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.4.1 发行版本中查看以下 CVE。
3.1.27. Network Observability Operator 发行注记 1.4.1 修复的问题 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.4.1 发行版本中查看以下固定问题。
- 在 1.4 中,向 Kafka 发送网络流数据时存在一个已知问题。Kafka 消息密钥被忽略,从而导致带有连接跟踪的错误。现在,密钥用于分区,因此来自同一连接的每个流都会发送到同一处理器。(NETOBSERV-926)
-
在 1.4 中,引入了
Inner流方向,以考虑在同一节点上运行的 pod 间的流。在生成的 Prometheus 指标中不会考虑从流派生的 Prometheus 指标中的带有Inner方向的流,从而导致出现以下字节和数据包率。现在,派生的指标包括带有Inner方向的流,提供正确的字节和数据包率。(NETOBSERV-1344)
3.1.28. 网络可观察性发行注记 1.4.0 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.4.0 发行版本的公告。
3.1.29. 网络可观察性发行注记 1.4.0 的新功能和功能增强 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.4.0 发行版本中查看以下新功能和增强。
3.1.29.1. 主要改进 复制链接链接已复制到粘贴板!
Network Observability Operator 的 1.4 发行版本为 OpenShift Container Platform Web 控制台插件和 Operator 配置添加了改进和新功能。
3.1.29.2. Web 控制台增强: 复制链接链接已复制到粘贴板!
- 在 Query Options 中,添加了 Duplicate 流 复选框,以选择要显示重复流。
-
现在您可以使用
One-way,
Back-and-forth, 和 Swap 过滤器过滤源和目标流。
Observe
Dashboards NetObserv 和 NetObserv / Health 中的 Network Observability 指标仪表板被修改,如下所示: - NetObserv 仪表板显示顶级字节、数据包发送、每个节点、命名空间和工作负载接收的数据包。流图从此仪表板中删除。
- NetObserv / Health 仪表板显示流开销,以及每个节点的流率、命名空间和工作负载。
- 基础架构和应用程序指标显示在命名空间和工作负载的 split-view 中。
3.1.29.3. 配置增强: 复制链接链接已复制到粘贴板!
- 现在,您可以选择为任何配置的 ConfigMap 或 Secret 引用指定不同的命名空间,如证书配置中。
-
添加
spec.processor.clusterName参数,以便集群名称出现在流数据中。这在多集群上下文中很有用。使用 OpenShift Container Platform 时,留空,使其自动决定。
3.1.29.4. 没有 Loki 的 Network Observability 复制链接链接已复制到粘贴板!
Network Observability Operator 现在可以在没有 Loki 的情况下正常工作。如果没有安装 Loki,它只能将流导出到 KAFKA 或 IPFIX 格式,并在 Network Observability 指标仪表板中提供指标。
3.1.29.5. DNS 跟踪 复制链接链接已复制到粘贴板!
在 1.4 中,Network Observability Operator 使用 eBPF 追踪点 hook 启用 DNS 跟踪。您可以监控网络,执行安全分析,并对 web 控制台中的 Network Traffic 和 Overview 页面中的 DNS 问题进行故障排除。
3.1.29.6. SR-IOV 支持 复制链接链接已复制到粘贴板!
现在,您可以使用单根 I/O 虚拟化(SR-IOV)设备从集群收集流量。
3.1.29.7. 支持 IPFIX exporter 复制链接链接已复制到粘贴板!
现在,您可以将 eBPF 丰富的网络流导出到 IPFIX 收集器。
3.1.29.8. 数据包丢弃 复制链接链接已复制到粘贴板!
在 Network Observability Operator 的 1.4 发行版本中,eBPF 追踪点 hook 用于启用数据包丢弃跟踪。现在,您可以检测和分析数据包丢弃的原因,并做出决策来优化网络性能。在 OpenShift Container Platform 4.14 及更高版本中,会检测主机丢弃和 OVS 丢弃。在 OpenShift Container Platform 4.13 中,只检测主机丢弃。
3.1.29.9. s390x 架构支持 复制链接链接已复制到粘贴板!
Network Observability Operator 现在可在 s390x 构架中运行。以前,它在 amd64、ppc64le 或 arm64 上运行。
3.1.30. 网络可观察性发行注记 1.4.0 删除的功能 复制链接链接已复制到粘贴板!
您可以从 Network Observability Operator 1.4.0 发行版本中查看以下删除的功能。
3.1.30.1. 频道删除 复制链接链接已复制到粘贴板!
您必须将频道从 v1.0.x 切换到 stable,以接收最新的 Operator 更新。v1.0.x 频道现已被删除。
3.1.31. 网络可观察性发行注记中的 1.4.0 修复的问题 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.4.0 发行版本中查看以下固定问题。
-
在以前的版本中,被 Network Observability 导出的 Prometheus 指标会忽略潜在的重复网络流。在相关的仪表板中,在 Observe
Dashboards 中,这可能会导致潜在的双倍率。请注意,来自 Network Traffic 视图中的仪表板不会受到影响。现在,会过滤网络流以消除指标计算前的重复项,仪表板中会显示正确的流量率。(NETOBSERV-1131) -
在以前的版本中,当使用 Multus 或 SR-IOV (非默认网络命名空间)配置时,Network Observability Operator 代理无法捕获网络接口上的流量。现在,所有可用的网络命名空间都会被识别并用于捕获 SR-IOV 的流量。
FlowCollector和SRIOVnetwork自定义资源需要配置来收集流量。(NETOBSERV-1283)
-
在以前的版本中,在 Operators
Installed Operators 的 Network Observability Operator 详情中, FlowCollectorStatus 字段可能会报告有关部署状态的错误信息。现在,status 字段会显示正确的信息。保持的事件历史记录,按事件日期排序。(NETOBSERV-1224) -
在以前的版本中,在网络流量负载激增时,某些 eBPF pod 被 OOM 终止,并进入
CrashLoopBackOff状态。现在,eBPF代理内存占用率有所改进,因此 pod 不会被 OOM 终止,并进入CrashLoopBackOff状态。(NETOBSERV-975) -
在以前的版本中,当
processor.metrics.tls设置为PROVIDED时,insecureSkipVerify选项值被强制为true。现在,您可以将insecureSkipVerify设置为true或false,并在需要时提供 CA 证书。(NETOBSERV-1087)
3.1.32. 网络可观察性发行注记中的 1.4.0 已知问题 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.4.0 发行版本中查看以下已知问题。
-
由于 Network Observability Operator 的 1.2.0 发行版本使用 Loki Operator 5.6,Loki 证书更改会定期影响
flowlogs-pipelinepod,并导致丢弃流而不是写入 Loki 的流。一段时间后,问题会自行修正,但它仍然会在 Loki 证书更改过程中导致临时流数据丢失。此问题仅在有 120 个节点或更多节点的大型环境中观察到。(NETOBSERV-980) -
目前,当
spec.agent.ebpf.features包括 DNSTracking 时,更大的 DNS 数据包需要eBPF代理在第一套接字缓冲区(SKB)网段外查找 DNS 标头。需要实施新的eBPF代理帮助程序功能来支持它。目前,这个问题还没有临时解决方案。(NETOBSERV-1304) -
目前,当
spec.agent.ebpf.features包括 DNSTracking 时,通过 TCP 数据包的 DNS 需要eBPF代理在 1st SKB 段外查找 DNS 标头。需要实施新的eBPF代理帮助程序功能来支持它。目前,这个问题还没有临时解决方案。(NETOBSERV-1245) -
目前,在使用
KAFKA部署模型时,如果配置了对话跟踪,则对话事件可能会在 Kafka 用户间重复,导致跟踪对话不一致和不正确的 volumetric 数据。因此,不建议在deploymentModel设置为KAFKA时配置对话跟踪。(NETOBSERV-926) -
目前,当
processor.metrics.server.tls.type配置为使用PROVIDED证书时,Operator 会进入一个没有就绪的状态,该状态可能会影响其性能和资源消耗。在解决此问题解决前,建议不要使用PROVIDED证书,而是使用自动生成的证书,将processor.metrics.server.tls.type设置为AUTO。(NETOBSERV-1293 -
由于 Network Observability Operator 的 1.3.0 发行版本,安装 Operator 会导致出现警告内核污点。此错误的原因是,Network Observability eBPF 代理具有内存限制,可防止预分配整个 hashmap 表。Operator eBPF 代理设置
BPF_F_NO_PREALLOC标志,以便在 hashmap 过内存扩展时禁用预分配。
3.1.33. Network Observability Operator 1.3.0 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.3.0 发行版本中的以下公告。
3.1.34. Network Observability Operator 1.3.0 的新功能和增强 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.3.0 发行版本中查看以下新功能和增强。
3.1.34.1. Network Observability 中的多租户 复制链接链接已复制到粘贴板!
- 系统管理员可以将单独的用户访问或组访问权限限制为存储在 Loki 中的流。如需更多信息,请参阅"网络可观察性中的多租户"。
3.1.34.2. 基于流的指标仪表板 复制链接链接已复制到粘贴板!
- 此发行版本添加了一个新的仪表板,它概述了 OpenShift Container Platform 集群中的网络流。如需更多信息,请参阅"网络可观察性指标仪表板"。
3.1.34.3. 使用 must-gather 工具进行故障排除 复制链接链接已复制到粘贴板!
- 有关 Network Observability Operator 的信息现在可以包含在 must-gather 数据中以进行故障排除。如需更多信息,请参阅"网络可观察性 must-gather"。
3.1.34.4. 现在支持多个构架 复制链接链接已复制到粘贴板!
-
Network Observability Operator 现在可在
amd64、ppc64le或arm64架构上运行。在以前的版本中,它只在amd64上运行。
3.1.35. Network Observability Operator 1.3.0 弃用的功能 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.3.0 发行版本中的以下已弃用的功能。
3.1.35.1. 频道弃用 复制链接链接已复制到粘贴板!
您必须将频道从 v1.0.x 切换到 stable,以接收将来的 Operator 更新。v1.0.x 频道已弃用,计划在以后的发行版本中删除。
3.1.35.2. 弃用的配置参数设置 复制链接链接已复制到粘贴板!
Network Observability Operator 1.3 发行版本弃用了 spec.Loki.authToken HOST 设置。使用 Loki Operator 时,现在必须使用 FORWARD 设置。
3.1.36. Network Observability Operator 1.3.0 修复的问题 复制链接链接已复制到粘贴板!
您可以在 Network Observability Operator 1.3.0 发行版本中查看以下固定问题。
-
在以前的版本中,当通过 CLI 安装 Operator 时,Cluster Monitoring Operator 所需的
Role和RoleBinding不会按预期安装。从 Web 控制台安装 Operator 时,不会出现这个问题。现在,安装 Operator 的任何方法都会安装所需的Role和RoleBinding。(NETOBSERV-1003) -
自版本 1.2 起,Network Observability Operator 可以在流集合出现问题时引发警报。在以前的版本中,由于一个程序错误,用于禁用警报的相关配置,
spec.processor.metrics.disableAlerts无法正常工作,有时无效。现在,此配置已被修复,可以禁用警报。(NETOBSERV-976) -
在以前的版本中,当 Network Observability 被配置为
spec.loki.authToken为DISABLED时,只有kubeadmin集群管理员才能查看网络流。其他类型的集群管理员收到授权失败。现在,任何集群管理员都可以查看网络流。(NETOBSERV-972) -
在以前的版本中,一个 bug 会阻止用户将
spec.consolePlugin.portNaming.enable设置为false。现在,此设置可以设置为false来禁用端口到服务名称转换。(NETOBSERV-971) - 在以前的版本中,Cluster Monitoring Operator (Prometheus) 不会收集由 console 插件公开的指标,因为配置不正确。现在,配置已被修复,控制台插件指标可以被正确收集并从 OpenShift Container Platform Web 控制台访问。(NETOBSERV-765)
-
在以前的版本中,当在
FlowCollector中将processor.metrics.tls设置为AUTO时,flowlogs-pipeline servicemonitor不会适应适当的 TLS 方案,且指标在 web 控制台中不可见。现在,这个问题已针对 AUTO 模式解决。(NETOBSERV-1070) -
在以前的版本中,证书配置(如 Kafka 和 Loki)不允许指定 namespace 字段,这意味着证书必须位于部署 Network Observability 的同一命名空间中。另外,当在 TLS/mTLS 中使用 Kafka 时,用户必须手动将证书复制到部署
eBPF代理 pod 的特权命名空间,并手动管理证书更新,如证书轮转时。现在,通过在FlowCollector资源中为证书添加 namespace 字段来简化 Network Observability 设置。现在,用户可以在不同的命名空间中安装 Loki 或 Kafka,而无需在 Network Observability 命名空间中手动复制其证书。原始证书会被监视,以便在需要时自动更新副本。(NETOBSERV-773) - 在以前的版本中,Network Observability 代理没有涵盖 SCTP、ICMPv4 和 ICMPv6 协议,从而导致较少的全面的网络流覆盖。现在,这些协议可以被识别以改进流覆盖。(NETOBSERV-934)
3.1.37. Network Observability Operator 1.3.0 已知问题 复制链接链接已复制到粘贴板!
您可以查看以下问题及其临时解决方案(如果可用),以排除 Network Observability Operator 1.3.0 发行版本中的问题。
-
当
FlowCollector中的processor.metrics.tls设置为PROVIDED时,flowlogs-pipelineservicemonitor不会适应 TLS 方案。(NETOBSERV-1087) -
由于 Network Observability Operator 的 1.2.0 发行版本使用 Loki Operator 5.6,Loki 证书更改会定期影响
flowlogs-pipelinepod,并导致丢弃流而不是写入 Loki 的流。一段时间后,问题会自行修正,但它仍然会在 Loki 证书更改过程中导致临时流数据丢失。此问题仅在有 120 个节点或更多节点的大型环境中观察到。(NETOBSERV-980) -
安装 Operator 时,可能会出现警告内核污点。此错误的原因是,Network Observability eBPF 代理具有内存限制,可防止预分配整个 hashmap 表。Operator eBPF 代理设置
BPF_F_NO_PREALLOC标志,以便在 hashmap 过内存扩展时禁用预分配。
3.1.38. 网络可观察性发行注记 1.2.0 准备下一次更新 复制链接链接已复制到粘贴板!
将 Network Observability Operator 的更新频道从已弃用的 v1.0.x 切换到 stable 频道,以继续获得将来的发行版本和更新。
已安装的 Operator 的订阅指定一个更新频道,用于跟踪和接收 Operator 的更新。在 Network Observability Operator 的 1.2 发布前,唯一可用的频道为 v1.0.x。Network Observability Operator 的 1.2 发行版本引入了用于跟踪和接收更新的 stable 更新频道。您必须将频道从 v1.0.x 切换到 stable,以接收将来的 Operator 更新。v1.0.x 频道已弃用,计划在以后的发行版本中删除。
3.1.39. Network Observability Operator 1.2.0 公告 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.2.0 发行版本的以下公告。
3.1.40. Network Observability Operator 1.2.0 的新功能和增强 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.2.0 的以下新功能和增强。
3.1.40.1. 流量流视图中的直方图 复制链接链接已复制到粘贴板!
现在,您可以选择显示一段时间内流的直方图。histogram 可让您视觉化流历史记录,而不会达到 Loki 查询的限制。如需更多信息,请参阅"使用直方图"。
3.1.40.2. 对话跟踪 复制链接链接已复制到粘贴板!
现在,您可以通过 Log Type 查询流,它允许对同一对话一部分的网络流进行分组。如需更多信息,请参阅"使用对话"。
3.1.40.3. Network Observability 健康警报 复制链接链接已复制到粘贴板!
现在,如果因为写入阶段出现错误,或者达到 Loki ingestion 速率限制,Network Observability Operator 会在 flowlogs-pipeline 丢弃流时自动创建自动警报。如需更多信息,请参阅"Health dashboard"。
3.1.41. Network Observability Operator 1.2.0 程序错误修复 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.2.0 发行版本的以下固定问题。
-
在以前的版本中,在更改 FlowCollector spec 中的
namespace值后,在前一个命名空间中运行的eBPF代理 pod 没有被适当删除。现在,在上一个命名空间中运行的 pod 会被正确删除。(NETOBSERV-774) -
在以前的版本中,在更改 FlowCollector spec (如 Loki 部分)中的
caCert.name值后,FlowLogs-Pipeline pod 和 Console 插件 pod 不会重启,因此它们不知道配置更改。现在,pod 被重启,因此它们会获得配置更改。(NETOBSERV-772) - 在以前的版本中,在不同节点上运行的 pod 间的网络流有时没有正确识别为重复,因为它们由不同的网络接口捕获。这会导致控制台插件中显示过量的指标。现在,流会被正确识别为重复,控制台插件会显示准确的指标。(NETOBSERV-755)
- 控制台插件中的 "reporter" 选项用于根据源节点或目标节点的观察点过滤流。在以前的版本中,无论节点观察点是什么,这个选项都会混合流。这是因为在节点级别将网络流错误地报告为 Ingress 或 Egress。现在,网络流方向报告是正确的。源观察点的 "reporter" 选项过滤器,或目标观察点如预期。( NETOBSERV-696)
- 在以前的版本中,对于配置为直接将流作为 gRPC+protobuf 请求发送的代理,提交的有效负载可能太大,并由处理器的 GRPC 服务器拒绝。这会在有非常高负载的场景中发生,且只会发生在一些代理配置中。代理记录错误消息,例如:grpc: received message larger than max。因此,缺少有关这些流的信息丢失。现在,当大小超过阈值时,gRPC 有效负载被分成多个信息。因此,服务器可以维护连接状态。(NETOBSERV-617)
3.1.42. Network Observability Operator 1.2.0 已知问题 复制链接链接已复制到粘贴板!
您可以查看以下问题及其临时解决方案(如果可用),以排除 Network Observability Operator 1.2.0 发行版本中的问题。
-
在 Network Observability Operator 的 1.2.0 发行版本中,使用 Loki Operator 5.6,Loki 证书转换会定期影响
flowlogs-pipelinepod,并导致丢弃流而不是写入 Loki 的流程。一段时间后,问题会自行修正,但它仍然会在 Loki 证书转换过程中导致临时流数据丢失。(NETOBSERV-980)
3.1.43. Network Observability Operator 1.2.0 显著的技术更改 复制链接链接已复制到粘贴板!
因为新的技术变化,Network Observability Operator 1.2.0 发行版本需要在 openshift-netobserv-operator 命名空间中安装。以前使用自定义命名空间的用户必须删除旧实例并重新安装 Operator。
在以前的版本中,您可以使用自定义命名空间安装 Network Observability Operator。此发行版本引入了 转换 Webhook,它更改了 ClusterServiceVersion。由于这个变化,所有可用的命名空间不再被列出。另外,要启用 Operator 指标集合,无法使用与其他 Operator 共享的命名空间(如 openshift-operators 命名空间)。
现在,Operator 必须安装在 openshift-netobserv-operator 命名空间中。
如果您之前使用自定义命名空间安装 Network Observability Operator,则无法自动升级到新的 Operator 版本。如果您之前使用自定义命名空间安装 Operator,您必须删除已安装的 Operator 实例,并在 openshift-netobserv-operator 命名空间中重新安装 Operator。务必要注意,对于 FlowCollector、Loki、Kafka 和其他插件,仍可使用自定义命名空间(如常用的 netobserv 命名空间)。
3.1.44. Network Observability Operator 1.1.0 的改进 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.1.0 的以下公告:
Network Observability Operator 现在稳定,发行频道已升级到 v1.1.0。
3.1.45. Network Observability Operator 1.1.0 修复的问题 复制链接链接已复制到粘贴板!
您可以查看 Network Observability Operator 1.1.0 发行版本的以下固定问题。
-
在以前的版本中,除非 Loki
authToken配置被设置为FORWARD模式,否则不会强制身份验证,允许未授权用户检索流。现在,无论 LokiauthToken模式如何,只有集群管理员才能检索流。(BZ#2169468)