1.3. Network Observability Operator 1.5.0
以下公告可用于 Network Observability Operator 1.5.0:
1.3.1. 新功能及功能增强
1.3.1.1. DNS 跟踪增强
在 1.5 中,除了 UDP 外,还支持 TCP 协议。在 Network Traffic 页面的 Overview 视图中添加了新的仪表板。如需更多信息,请参阅配置 DNS 跟踪和使用 DNS 跟踪。
1.3.1.2. 往返时间 (RTT)
您可以使用从 fentry/tcp_rcv_ established
Extended Berkeley Packet Filter (eBPF) hookpoint 中捕获的 TCP 握手 Round-Trip Time (RTT) 来读取平稳的往返时间(SRTT) 并分析网络流。在 web 控制台中的 Overview、Network Traffic、和 Topology 页面中,您可以监控网络流量,并使用 RTT 指标、过滤和边缘标记进行故障排除。如需更多信息,请参阅 RTT 概述和使用 RTT。
1.3.1.3. 指标、仪表板和警报增强
Observe includeList
规格中定义可用指标。在以前的版本中,这些指标在 ignoreTags
规格中定义。有关这些指标的完整列表,请参阅 Network Observability Metrics。
1.3.1.4. 没有 Loki 的 Network Observability 的改进
您可以使用 DNS、Packet drop 和 RTT 指标为 Netobserv 仪表板创建 Prometheus 警报,即使您不使用 Loki。在以前的 Network Observability 版本 1.4 中,这些指标仅适用于 Network Traffic、Overview 和 Topology 视图中查询和分析,这些指标在没有 Loki 的情况下不可用。如需更多信息,请参阅 Network Observability Metrics。
1.3.1.5. 可用区
您可以配置 FlowCollector
资源来收集有关集群可用区的信息。此配置增强了使用应用到节点的 topology.kubernetes.io/zone
标签值的网络流数据。如需更多信息,请参阅使用可用区。
1.3.1.6. 主要改进
Network Observability Operator 的 1.5 发行版本为 OpenShift Container Platform Web 控制台插件和 Operator 配置添加了改进和新功能。
性能增强
spec.agent.ebpf.kafkaBatchSize
的默认设置从10MB
改为1MB
,以便在使用 Kafka 时增强 eBPF 性能。重要当从现有安装升级时,不会在配置中自动设置这个新值。如果您在升级后发现 eBPF 代理内存消耗的性能出现回归的问题,您可以考虑将
kafkaBatchSize
减少为一个新值。
Web 控制台增强:
- 在 DNS 和 RTT 的 Overview 视图中添加了新的面板:Min、Max、P90、P99。
添加了新的面板显示选项:
- 专注于一个面板,同时保持其他面板可查看但没有主要关注。
- 切换图形类型。
- 显示 Top 和 Overall。
- 自定义时间范围弹出窗口中会显示集合延迟警告。
- 增强了管理面板和管理列弹出窗口内容的可见性。
- 在 web 控制台的 Network Traffic 页面中,可以使用 egress QoS 的 Differentiated Services Code Point (DSCP) 字段来对 QoS DSCP 进行过滤。
配置增强:
-
spec.loki.mode
规格中的LokiStack
模式会自动设置 URL、TLS、集群角色和集群角色绑定,以及authToken
值,来简化安装。Manual
模式允许对这些设置进行更多控制。 -
API 版本从
flows.netobserv.io/v1beta1
更新到flows.netobserv.io/v1beta2
。
1.3.2. 程序错误修复
-
在以前的版本中,如果禁用了 console 插件的自动注册功能,则无法在 web 控制台界面中手动注册 console 插件。如果在
FlowCollector
资源中将spec.console.register
值设置为false
,Operator 会覆盖并清除插件注册。在这个版本中,将spec.console.register
值设置为false
不会影响控制台插件注册或删除。因此,可以安全地手动注册插件。(NETOBSERV-1134) -
在以前的版本中,使用默认指标设置,NetObserv/Health 仪表板显示一个名为 Flows Overhead 的空图形。这个指标只能通过从
ignoreTags
列表中删除 "namespaces-flows" 和 "namespaces" 时才可用。在这个版本中,在使用默认指标设置时,此指标可见。(NETOBSERV-1351) - 在以前的版本中,运行 eBPF 代理的节点无法使用一个特定的集群配置解析。这会导致一连串的后果,并导致无法提供一些流量指标。在这个版本中,eBPF 代理的节点 IP 由 Operator 安全提供,从 pod 状态推断出。现在,缺少的指标会被恢复。(NETOBSERV-1430)
- 在以前的版本中,Loki Operator 的 Loki 错误 'Input size too long' 错误中没有包括可以帮助进行故障排除的额外信息。在这个版本中,帮助信息在 web 控制台中的错误旁显示,并带有直接链接来获得更详细的信息。(NETOBSERV-1464)
-
在以前的版本中,控制台插件读取超时被强制为 30s。使用
FlowCollector
v1beta2
API 更新,您可以配置spec.loki.readTimeout
规格来根据 Loki OperatorqueryTimeout
限制更新这个值。(NETOBSERV-1443) -
在以前的版本中,Operator 捆绑包不会按预期显示 CSV 注解的一些支持功能,如
features.operators.openshift.io/…
。在这个版本中,这些注解会在 CSV 中按预期设置。(NETOBSERV-1305) -
在以前的版本中,在协调过程中,
FlowCollector
状态有时会在DeploymentInProgress
和Ready
状态之间转换。在这个版本中,只有在所有底层组件都完全就绪时,状态才会变为Ready
。(NETOBSERV-1293)
1.3.3. 已知问题
-
当尝试访问 web 控制台时,OCP 4.14.10 上的缓存问题会阻止访问 Observe 视图。Web 控制台显示错误消息:
Failed to get a valid plugin manifest from /api/plugins/monitoring-plugin/
.推荐的解决方法是,把集群升级到最新的次版本。如果这无法解决问题,请参阅红帽知识库文章。(NETOBSERV-1493) -
由于 Network Observability Operator 的 1.3.0 发行版本,安装 Operator 会导致出现警告内核污点。此错误的原因是,Network Observability eBPF 代理具有内存限制,可防止预分配整个 hashmap 表。Operator eBPF 代理设置
BPF_F_NO_PREALLOC
标志,以便在 hashmap 过内存扩展时禁用预分配。