第 9 章 网络可观察性警报
Network Observability Operator 使用内置指标和 OpenShift Container Platform 监控堆栈提供警报,以快速指示集群的网络健康状况。
网络可观察性警报只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅以下链接:
9.1. 关于网络可观察性警报 复制链接链接已复制到粘贴板!
网络可观察性包括预定义的警报。使用这些警报来深入了解 OpenShift Container Platform 应用程序和基础架构的健康状态和性能。
预定义的警报在 Network Health 仪表板中提供集群网络的快速健康状况。您还可以使用 Prometheus Query Language (PromQL) 查询自定义警报。
默认情况下,网络可观察性会创建与您启用的功能相关的警报。
例如,只有在 FlowCollector 自定义资源(CR)中启用了 PacketDrop 代理功能时,才会创建数据包丢弃相关的警报。基于指标构建警报,如果启用的警报缺少所需的指标,则可能会看到配置警告。
您可以在 FlowCollector CR 的 spec.processor.metrics.includeList 对象中配置这些指标。
9.1.1. 默认警报模板列表 复制链接链接已复制到粘贴板!
这些警报模板默认安装:
PacketDropsByDevice-
高百分比的数据包丢弃来自设备的触发器 (
/proc/net/dev)。 PacketDropsByKernel-
对内核的高百分比数据包丢弃的触发器;它需要
PacketDrop代理功能。 IPsecErrors-
当网络可观察性检测到 IPsec 加密错误时触发,它需要
IPSec代理功能。 NetpolDenied-
当网络可观察性检测到网络策略的流量时,会触发
NetworkEvents代理功能。 LatencyHighTrend-
网络可观察性检测到 TCP 延迟时触发,它需要
FlowRTT代理功能。 DNSErrors-
网络可观察性检测到 DNS 错误时触发,它需要
DNSTracking代理功能。
这些是与网络可观察性自健康相关的操作警报:
NetObservNoFlows- 在特定时间段内没有观察流时触发。
NetObservLokiError- 当因为 Loki 错误而丢弃流时触发器。
您可以为网络可观察性配置、扩展或禁用警报。您可以运行以下命令来查看默认 netobserv 命名空间中生成的 PrometheusRule 资源:
$ oc get prometheusrules -n netobserv -oyaml
9.1.2. 网络健康仪表板 复制链接链接已复制到粘贴板!
当在 Network Observability Operator 中启用警报时,会出现两个问题:
-
新警报会出现在 OpenShift Container Platform Web 控制台的 Observe
Alerting Alerting rules 选项卡中。 -
OpenShift Container Platform web 控制台
Observe 中会出现新的 Network Health 仪表板。
Network Health 仪表板提供触发的警报和待处理警报摘要,区分关键、警告和次要问题。以下标签页中会显示规则违反情况的警报:
- 全局 :显示集群全局的警报。
- 节点 :显示每个节点的规则违反情况的警报。
- 命名空间 :显示每个命名空间的规则违反情况的警报。
点资源卡查看更多信息。在每个警报旁边,会显示三个点菜单。在这个菜单中,您可以进入 Network Traffic