2.9. Network Observability Operator 1.5.0
以下公告可用于 Network Observability Operator 1.5.0:
2.9.1. 新功能及功能增强 复制链接链接已复制到粘贴板!
2.9.1.1. DNS 跟踪增强 复制链接链接已复制到粘贴板!
在 1.5 中,除了 UDP 外,还支持 TCP 协议。在 Network Traffic 页面的 Overview 视图中添加了新的仪表板。如需更多信息,请参阅配置 DNS 跟踪和使用 DNS 跟踪。
2.9.1.2. 往返时间 (RTT) 复制链接链接已复制到粘贴板!
您可以使用从 fentry/tcp_rcv_ established
Extended Berkeley Packet Filter (eBPF) hookpoint 中捕获的 TCP 握手 Round-Trip Time (RTT) 来读取平稳的往返时间(SRTT) 并分析网络流。在 web 控制台中的 Overview、Network Traffic、和 Topology 页面中,您可以监控网络流量,并使用 RTT 指标、过滤和边缘标记进行故障排除。如需更多信息,请参阅 RTT 概述和使用 RTT。
2.9.1.3. 指标、仪表板和警报增强 复制链接链接已复制到粘贴板!
Observe includeList
规格中定义可用指标。在以前的版本中,这些指标在 ignoreTags
规格中定义。有关这些指标的完整列表,请参阅 网络可观察性指标。
2.9.1.4. 在没有 Loki 的情况下对网络可观察性的改进 复制链接链接已复制到粘贴板!
您可以使用 DNS、Packet drop 和 RTT 指标为 Netobserv 仪表板创建 Prometheus 警报,即使您不使用 Loki。在以前的网络可观察性版本中 1.4,这些指标仅适用于在 Network Traffic、Overview 和 Topology 视图中查询和分析,这些视图在没有 Loki 的情况下不可用。如需更多信息,请参阅 网络可观察性指标
2.9.1.5. 可用区 复制链接链接已复制到粘贴板!
您可以配置 FlowCollector
资源来收集有关集群可用区的信息。此配置增强了使用应用到节点的 topology.kubernetes.io/zone
标签值的网络流数据。如需更多信息,请参阅使用可用区。
2.9.1.6. 主要改进 复制链接链接已复制到粘贴板!
Network Observability Operator 的 1.5 发行版本为 OpenShift Container Platform Web 控制台插件和 Operator 配置添加了改进和新功能。
2.9.1.6.1. 性能增强 复制链接链接已复制到粘贴板!
spec.agent.ebpf.kafkaBatchSize
的默认设置从10MB
改为1MB
,以便在使用 Kafka 时增强 eBPF 性能。重要当从现有安装升级时,不会在配置中自动设置这个新值。如果您在升级后发现 eBPF 代理内存消耗的性能出现回归的问题,您可以考虑将
kafkaBatchSize
减少为一个新值。
2.9.1.6.2. Web 控制台增强: 复制链接链接已复制到粘贴板!
- 在 DNS 和 RTT 的 Overview 视图中添加了新的面板:Min、Max、P90、P99。
添加了新的面板显示选项:
- 专注于一个面板,同时保持其他面板可查看但没有主要关注。
- 切换图形类型。
- 显示 Top 和 Overall。
- 自定义时间范围弹出窗口中会显示集合延迟警告。
- 增强了管理面板和管理列弹出窗口内容的可见性。
- 在 web 控制台的 Network Traffic 页面中,可以使用 egress QoS 的 Differentiated Services Code Point (DSCP) 字段来对 QoS DSCP 进行过滤。
2.9.1.6.3. 配置增强: 复制链接链接已复制到粘贴板!
-
spec.loki.mode
规格中的LokiStack
模式会自动设置 URL、TLS、集群角色和集群角色绑定,以及authToken
值,来简化安装。Manual
模式允许对这些设置进行更多控制。 -
API 版本从
flows.netobserv.io/v1beta1
更新到flows.netobserv.io/v1beta2
。
2.9.2. 程序错误修复 复制链接链接已复制到粘贴板!
-
在以前的版本中,如果禁用了 console 插件的自动注册功能,则无法在 web 控制台界面中手动注册 console 插件。如果在
FlowCollector
资源中将spec.console.register
值设置为false
,Operator 会覆盖并清除插件注册。在这个版本中,将spec.console.register
值设置为false
不会影响控制台插件注册或删除。因此,可以安全地手动注册插件。(NETOBSERV-1134) -
在以前的版本中,使用默认指标设置,NetObserv/Health 仪表板显示一个名为 Flows Overhead 的空图形。这个指标只能通过从
ignoreTags
列表中删除 "namespaces-flows" 和 "namespaces" 时才可用。在这个版本中,在使用默认指标设置时,此指标可见。(NETOBSERV-1351) - 在以前的版本中,运行 eBPF 代理的节点无法使用一个特定的集群配置解析。这会导致一连串的后果,并导致无法提供一些流量指标。在这个版本中,eBPF 代理的节点 IP 由 Operator 安全提供,从 pod 状态推断出。现在,缺少的指标会被恢复。(NETOBSERV-1430)
- 在以前的版本中,Loki Operator 的 Loki 错误 'Input size too long' 错误中没有包括可以帮助进行故障排除的额外信息。在这个版本中,帮助信息在 web 控制台中的错误旁显示,并带有直接链接来获得更详细的信息。(NETOBSERV-1464)
-
在以前的版本中,控制台插件读取超时被强制为 30s。使用
FlowCollector
v1beta2
API 更新,您可以配置spec.loki.readTimeout
规格来根据 Loki OperatorqueryTimeout
限制更新这个值。(NETOBSERV-1443) -
在以前的版本中,Operator 捆绑包不会按预期显示 CSV 注解的一些支持功能,如
features.operators.openshift.io/…
。在这个版本中,这些注解会在 CSV 中按预期设置。(NETOBSERV-1305) -
在以前的版本中,在协调过程中,
FlowCollector
状态有时会在DeploymentInProgress
和Ready
状态之间转换。在这个版本中,只有在所有底层组件都完全就绪时,状态才会变为Ready
。(NETOBSERV-1293)
2.9.3. 已知问题 复制链接链接已复制到粘贴板!
-
当尝试访问 web 控制台时,OCP 4.14.10 上的缓存问题会阻止访问 Observe 视图。Web 控制台显示错误消息:
Failed to get a valid plugin manifest from /api/plugins/monitoring-plugin/
.推荐的解决方法是,把集群升级到最新的次版本。如果这无法解决问题,请参阅红帽知识库文章。(NETOBSERV-1493) -
由于 Network Observability Operator 的 1.3.0 发行版本,安装 Operator 会导致出现警告内核污点。此错误的原因是网络可观察 eBPF 代理具有内存限制,阻止预分配整个哈希映射表。Operator eBPF 代理设置
BPF_F_NO_PREALLOC
标志,以便在 hashmap 过内存扩展时禁用预分配。