1.3. Network Observability Operator 1.5.0


以下公告可用于 Network Observability Operator 1.5.0:

1.3.1. 新功能及功能增强

1.3.1.1. DNS 跟踪增强

在 1.5 中,除了 UDP 外,还支持 TCP 协议。在 Network Traffic 页面的 Overview 视图中添加了新的仪表板。如需更多信息,请参阅配置 DNS 跟踪使用 DNS 跟踪

1.3.1.2. 往返时间 (RTT)

您可以使用从 fentry/tcp_rcv_ established Extended Berkeley Packet Filter (eBPF) hookpoint 中捕获的 TCP 握手 Round-Trip Time (RTT) 来读取平稳的往返时间(SRTT) 并分析网络流。在 web 控制台中的 OverviewNetwork Traffic、和 Topology 页面中,您可以监控网络流量,并使用 RTT 指标、过滤和边缘标记进行故障排除。如需更多信息,请参阅 RTT 概述使用 RTT

1.3.1.3. 指标、仪表板和警报增强

Observe Dashboards NetObserv 中的 Network Observability 指标仪表板具有可用于创建 Prometheus 警报的新指标类型。现在,您可以在 includeList 规格中定义可用指标。在以前的版本中,这些指标在 ignoreTags 规格中定义。有关这些指标的完整列表,请参阅 Network Observability Metrics

1.3.1.4. 没有 Loki 的 Network Observability 的改进

您可以使用 DNS、Packet drop 和 RTT 指标为 Netobserv 仪表板创建 Prometheus 警报,即使您不使用 Loki。在以前的 Network Observability 版本 1.4 中,这些指标仅适用于 Network TrafficOverviewTopology 视图中查询和分析,这些指标在没有 Loki 的情况下不可用。如需更多信息,请参阅 Network Observability Metrics

1.3.1.5. 可用区

您可以配置 FlowCollector 资源来收集有关集群可用区的信息。此配置增强了使用应用到节点的 topology.kubernetes.io/zone 标签值的网络流数据。如需更多信息,请参阅使用可用区

1.3.1.6. 主要改进

Network Observability Operator 的 1.5 发行版本为 OpenShift Container Platform Web 控制台插件和 Operator 配置添加了改进和新功能。

性能增强
  • spec.agent.ebpf.kafkaBatchSize 的默认设置从 10MB 改为 1MB,以便在使用 Kafka 时增强 eBPF 性能。

    重要

    当从现有安装升级时,不会在配置中自动设置这个新值。如果您在升级后发现 eBPF 代理内存消耗的性能出现回归的问题,您可以考虑将 kafkaBatchSize 减少为一个新值。

Web 控制台增强:
  • 在 DNS 和 RTT 的 Overview 视图中添加了新的面板:Min、Max、P90、P99。
  • 添加了新的面板显示选项:

    • 专注于一个面板,同时保持其他面板可查看但没有主要关注。
    • 切换图形类型。
    • 显示 TopOverall
  • 自定义时间范围弹出窗口中会显示集合延迟警告。
  • 增强了管理面板管理列弹出窗口内容的可见性。
  • 在 web 控制台的 Network Traffic 页面中,可以使用 egress QoS 的 Differentiated Services Code Point (DSCP) 字段来对 QoS DSCP 进行过滤。
配置增强:
  • spec.loki.mode 规格中的 LokiStack 模式会自动设置 URL、TLS、集群角色和集群角色绑定,以及 authToken 值,来简化安装。Manual 模式允许对这些设置进行更多控制。
  • API 版本从 flows.netobserv.io/v1beta1 更新到 flows.netobserv.io/v1beta2

1.3.2. 程序错误修复

  • 在以前的版本中,如果禁用了 console 插件的自动注册功能,则无法在 web 控制台界面中手动注册 console 插件。如果在 FlowCollector 资源中将 spec.console.register 值设置为 false,Operator 会覆盖并清除插件注册。在这个版本中,将 spec.console.register 值设置为 false 不会影响控制台插件注册或删除。因此,可以安全地手动注册插件。(NETOBSERV-1134)
  • 在以前的版本中,使用默认指标设置,NetObserv/Health 仪表板显示一个名为 Flows Overhead 的空图形。这个指标只能通过从 ignoreTags 列表中删除 "namespaces-flows" 和 "namespaces" 时才可用。在这个版本中,在使用默认指标设置时,此指标可见。(NETOBSERV-1351)
  • 在以前的版本中,运行 eBPF 代理的节点无法使用一个特定的集群配置解析。这会导致一连串的后果,并导致无法提供一些流量指标。在这个版本中,eBPF 代理的节点 IP 由 Operator 安全提供,从 pod 状态推断出。现在,缺少的指标会被恢复。(NETOBSERV-1430)
  • 在以前的版本中,Loki Operator 的 Loki 错误 'Input size too long' 错误中没有包括可以帮助进行故障排除的额外信息。在这个版本中,帮助信息在 web 控制台中的错误旁显示,并带有直接链接来获得更详细的信息。(NETOBSERV-1464)
  • 在以前的版本中,控制台插件读取超时被强制为 30s。使用 FlowCollector v1beta2 API 更新,您可以配置 spec.loki.readTimeout 规格来根据 Loki Operator queryTimeout 限制更新这个值。(NETOBSERV-1443)
  • 在以前的版本中,Operator 捆绑包不会按预期显示 CSV 注解的一些支持功能,如 features.operators.openshift.io/…​。在这个版本中,这些注解会在 CSV 中按预期设置。(NETOBSERV-1305)
  • 在以前的版本中,在协调过程中,FlowCollector 状态有时会在 DeploymentInProgressReady 状态之间转换。在这个版本中,只有在所有底层组件都完全就绪时,状态才会变为 Ready。(NETOBSERV-1293)

1.3.3. 已知问题

  • 当尝试访问 web 控制台时,OCP 4.14.10 上的缓存问题会阻止访问 Observe 视图。Web 控制台显示错误消息:Failed to get a valid plugin manifest from /api/plugins/monitoring-plugin/.推荐的解决方法是,把集群升级到最新的次版本。如果这无法解决问题,请参阅红帽知识库文章。(NETOBSERV-1493)
  • 由于 Network Observability Operator 的 1.3.0 发行版本,安装 Operator 会导致出现警告内核污点。此错误的原因是,Network Observability eBPF 代理具有内存限制,可防止预分配整个 hashmap 表。Operator eBPF 代理设置 BPF_F_NO_PREALLOC 标志,以便在 hashmap 过内存扩展时禁用预分配。
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.