第 30 章 使用 MetalLB 进行负载平衡
30.1. 关于 MetalLB 和 MetalLB Operator
作为集群管理员,您可以将 MetalLB Operator 添加到集群中,以便在将 LoadBalancer
类型服务添加到集群中时,MetalLB 可为该服务添加外部 IP 地址。外部 IP 地址添加到集群的主机网络中。
30.1.1. 何时使用 MetalLB
当您有裸机集群或类似裸机的基础架构时,使用 MetalLB 有价值,并且您希望通过外部 IP 地址对应用程序进行容错访问。
您必须配置网络基础架构,以确保外部 IP 地址的网络流量从客户端路由到集群的主机网络。
使用 MetalLB Operator 部署 MetalLB 后,当添加类型为 LoadBalancer
的服务时,MetalLB 提供了一个平台原生负载均衡器。
在 layer2 模式中的 MetalLB 操作通过使用与 IP 故障转移类似的机制提供对故障切换的支持。但是,MetalLB 利用基于 gosip 的协议来识别节点故障实例,而不依赖于虚拟路由器冗余协议 (VRRP) 和 keepalived。当检测到故障转移时,另一个节点会假定领导节点的角色,并且分配了一个 gratuitous ARP 消息来广播此更改。
MetalLB 在 layer3 或边框网关协议 (BGP) 模式下操作,将故障检测委派给网络。OpenShift Container Platform 节点建立连接的 BGP 路由器或路由器将识别任何节点故障并终止到该节点的路由。
最好使用 MetalLB 而不是 IP 故障转移来确保 pod 和服务的高可用性。
30.1.2. MetalLB Operator 自定义资源
MetalLB Operator 为以下自定义资源监控自己的命名空间:
MetalLB
-
当您在集群中添加
MetalLB
自定义资源时,MetalLB Operator 会在集群中部署 MetalLB。Operator 只支持单个自定义资源实例。如果删除了实例,Operator 会从集群中删除 MetalLB。 IPAddressPool
MetalLB 需要一个或多个 IP 地址池,您可以在添加类型为
LoadBalancer
的服务时分配给服务。一个IPAddressPool
,包含 IP 地址列表。列表可以是使用范围设置的单个 IP 地址,如 1.1.1.1-1.1.1.1、以 CIDR 表示法指定的范围、指定为起始和结束地址的范围,或者以连字符分隔的、两者的组合。IPAddressPool
需要一个名称。文档使用doc-example
、doc-example-reserved
和doc-example-ipv6
等名称。IPAddressPool
从池中分配 IP 地址。L2Advertisement
和BGPAdvertisement
自定义资源启用从一个指定池中广告一个给定 IP。注意单个
IPAddressPool
可以被 L2 公告和 BGP 公告来引用。BGPPeer
- BGP peer 自定义资源标识 MetalLB 进行通信的 BGP 路由器、路由器的 AS 数量、MetalLB 的 AS 编号,以及路由公告的自定义。MetalLB 将服务负载平衡器 IP 地址的路由公告给一个或多个 BGP 对等点。
BFDProfile
- BFD 配置集自定义资源可为 BGP peer 配置双向转发检测(BFD)。BFD 提供比 BGP 单独提供的路径故障检测速度。
L2Advertisement
-
L2Advertisement 自定义资源使用 L2 协议广告一个来自
IPAddressPool
的 IP。 BGPAdvertisement
-
BGPAdvertisement 自定义资源使用 BGP 协议广告一个来自
IPAddressPool
的 IP。
在将 MetalLB
自定义资源添加到集群,且 Operator 部署了 MetalLB 后,controller
和 speaker
MetalLB 软件组件将开始运行。
MetalLB 验证所有相关自定义资源。
30.1.3. MetalLB 软件组件
安装 MetalLB Operator 时,metallb-operator-controller-manager
部署会启动一个 pod。pod 是 Operator 的实施。pod 监控所有相关资源的更改。
当 Operator 启动 MetalLB 实例时,它会启动一个 controller
部署和一个 speaker
守护进程集。
controller
Operator 会启动部署和单个 pod。当您添加类型为
LoadBalancer
的服务时,Kubernetes 使用controller
从地址池中分配 IP 地址。如果服务失败,请验证controller
pod 日志中有以下条目:输出示例
"event":"ipAllocated","ip":"172.22.0.201","msg":"IP address assigned by controller
speaker
Operator 为
speaker
pod 启动守护进程集。默认情况下,在集群的每个节点上启动 pod。您可以在启动MetalLB
时在 MetalLB 自定义资源中指定节点选择器,将 pod 限制到特定的节点。如果controller
为服务分配了 IP 地址,并且服务仍不可用,请阅读speaker
pod 日志。如果speaker
pod 不可用,请运行oc describe pod -n
命令。对于第 2 层模式,
控制器
为服务分配 IP 地址后,speaker
pod 使用一种算法来确定哪些speaker
pod 将宣布负载均衡器 IP 地址。该算法涉及对节点名称和负载均衡器 IP 地址进行哈希处理。如需更多信息,请参阅"MetalLB 和外部流量策略"。speaker
使用地址解析协议 (ARP) 来宣布 IPv4 地址和邻居发现协议 (NDP) 来宣布 IPv6 地址。
对于 Border Gateway Protocol (BGP) 模式,controller
为服务分配 IP 地址后,每个 speaker
pod 为其 BGP 对等点公告负载均衡器 IP 地址。您可以配置节点在 BGP 对等点上启动 BGP 会话。
对负载均衡器 IP 地址的请求会路由到具有声明 IP 地址的 speaker
的节点。节点接收数据包后,服务代理会将数据包路由到该服务的端点。在最佳情况下,端点可以位于同一节点上,也可以位于另一节点上。每次建立连接时,服务代理都会选择一个端点。
30.1.4. MetalLB 和外部流量策略
使用第 2 层模式时,集群中的一个节点会接收服务 IP 地址的所有流量。使用 BGP 模式时,主机网络上的路由器会打开与集群中其中一个节点的连接,用于新客户端连接。集群在进入节点后如何处理流量受外部流量策略的影响。
cluster
这是
spec.externalTrafficPolicy
的默认值。使用
cluster
流量策略时,节点接收流量后,服务代理会将流量分发到服务中的所有容器集。此策略在 pod 之间提供统一流量分布,但它会模糊客户端 IP 地址,并可能会在 pod 中显示流量源自节点而不是客户端的应用。local
采用
local
流量策略时,节点接收流量后,服务代理仅将流量发送到同一节点上的 pod。例如,如果节点上的speaker
pod 宣布外部服务 IP,则所有流量都发送到节点 A。流量进入节点 A 后,服务代理仅将流量发送到节点 A 上的服务的 pod。位于其他节点上的服务的 Pod 不会从节点 A 接收任何流量。在需要故障转移时,其他节点上的服务的 Pod 充当副本。此策略不会影响客户端 IP 地址。应用容器集可以确定来自传入连接的客户端 IP 地址。
在 BGP 模式中配置外部流量策略时,以下信息非常重要。
虽然 MetalLB 公告来自所有有资格的节点的负载均衡器 IP 地址,但可能会限制在路由器的容量下,以建立同等成本多路径(ECMP)路由。如果广告 IP 的节点数量大于路由器的 ECMP 组的限制,路由器将使用比广告 IP 的节点数量少的节点。
例如,如果外部流量策略设置为 local
,且路由器将 ECMP 组限制设置为 16,实施 LoadBalancer 服务的 pod 部署在 30 个节点上,这会导致在 14 个节点上部署的 pod 不接收任何流量。在这种情况下,最好将该服务的外部流量策略设置为 cluster
。
30.1.5. 第 2 层模式的 MetalLB 概念
在第 2 层模式中,一个节点上的 speaker
pod 向主机网络宣布服务的外部 IP 地址。从网络的角度来看,节点似乎有多个 IP 地址分配给网络接口。
在第 2 层模式中,MetalLB 依赖于 ARP 和 NDP。这些协议在特定子网中实施本地地址解析。在这种情况下,客户端必须能够访问由 MetalLB 分配的 VIP,它与节点位于同一个子网中,以便 MetalLB 正常工作。
speaker
pod 响应 IPv4 服务和 IPv6 的 NDP 请求。
在第 2 层模式中,服务 IP 地址的所有流量都通过一个节点进行路由。在流量进入节点后,CNI 网络供应商的服务代理会将流量分发到该服务的所有 pod。
由于服务的所有流量都通过第 2 层模式中的单一节点进入,所以严格意义上,MetalLB 不会为第 2 层实施负载平衡器。相反,MetalLB 为第 2 层实施故障转移机制,以便在 speaker
pod 不可用时,不同节点上的 speaker
pod 可以宣布服务 IP 地址。
当节点不可用时,自动故障转移。其他节点上的 speaker
pod 检测到节点不可用,新的 speaker
pod 和节点从故障节点上拥有服务 IP 地址的所有权。
上图显示了与 MetalLB 相关的以下概念:
-
应用程序可以通过在
172.130.0.0/16
子网上具有集群 IP 的服务获取。该 IP 地址可以从集群内部访问。服务也有一个外部 IP 地址,用于分配给服务的 MetalLB,即192.168.100.200
。 - 节点 1 和 3 具有应用程序的 pod。
-
speaker
守护进程集在每个节点上运行一个 pod。MetalLB Operator 启动这些 pod。 -
每个
speaker
pod 都是主机网络的 pod。容器集的 IP 地址与主机网络上节点的 IP 地址相同。 -
节点 1 上的
speaker
pod 使用 ARP 声明服务的外部 IP 地址192.168.100.200
。声明外部 IP 地址的speaker
pod 必须与服务的端点位于同一个节点上,端点必须为Ready
条件。 客户端流量路由到主机网络,并连接到
192.168.100.200
IP 地址。在流量进入节点后,服务代理会根据您为服务设置的外部流量策略,将流量发送到同一节点上的应用 pod 或其他节点。-
如果服务的外部流量策略设置为
cluster
,则会从运行speaker
pod 的节点选择广告192.168.100.200
负载均衡器 IP 地址的节点。只有该节点才能接收该服务的流量。 -
如果服务的外部流量策略设置为
local
,则会从运行speaker
pod 的节点以及至少一个服务的端点选择广告192.168.100.200
负载均衡器 IP 地址的节点。只有该节点才能接收该服务的流量。在上图中,节点 1 或 3 将广告192.168.100.200
。
-
如果服务的外部流量策略设置为
-
如果节点 1 不可用,则外部 IP 地址将故障转移到另一节点。在具有应用 pod 和服务端点实例的另一个节点上,
speaker
Pod 开始宣布外部 IP 地址192.168.100.200
,新节点接收客户端流量。在图中,唯一的候选项是节点 3。
30.1.6. BGP 模式的 MetalLB 概念
在 BGP 模式中,默认情况下每个 speaker
pod 都会向每个 BGP 对等广告一个服务的负载均衡器 IP 地址。也可以通过添加可选 BGP 对等列表来广告来自给定池的 IP 地址到特定的对等池。BGP 对等点是配置为使用 BGP 协议的网络路由器。当路由器收到负载均衡器 IP 地址的流量时,路由器会选择一个带有公告 IP 地址的 speaker
pod 的节点。路由器将流量发送到该节点。在流量进入节点后,CNI 网络供应商的服务代理会将流量分发到该服务的所有 pod。
与集群节点相同的第 2 层网络段中直接连接的路由器可以配置为 BGP 对等点。如果直接连接的路由器没有配置为 BGP peer,您需要配置网络,以便负载均衡器 IP 地址的数据包在 BGP 对等机和运行 speaker
Pod 的集群节点之间路由。
每次路由器接收负载均衡器 IP 地址的新流量时,它会创建一个新的与节点的连接。每个路由器制造商都有一个特定于实施的算法,用于选择要启动连接的节点。但是,算法通常设计为在可用节点之间分发流量,以平衡网络负载。
如果节点不可用,路由器会与具有 speaker
pod 的另一个节点发起一个新的连接,以公告负载均衡器 IP 地址。
图 30.1. BGP 模式的 MetalLB 拓扑图
上图显示了与 MetalLB 相关的以下概念:
-
应用通过
172.130.0.0/16
子网上具有 IPv4 集群 IP 的服务进行访问。该 IP 地址可以从集群内部访问。该服务也有一个外部 IP 地址,MetalLB 分配到该服务203.0.113.200
。 - 节点 2 和 3 具有该应用的 pod。
-
speaker
守护进程集在每个节点上运行一个 pod。MetalLB Operator 启动这些 pod。您可以配置 MetalLB 来指定运行speaker
pod 的节点。 -
每个
speaker
pod 都是主机网络的 pod。容器集的 IP 地址与主机网络上节点的 IP 地址相同。 -
每个
speaker
pod 启动一个 BGP 会话,其中包含所有 BGP 对等点,并将负载均衡器 IP 地址或聚合路由公告给 BGP 对等点。speaker
pod 公告它们是 Autonomous System 65010 的一部分。图显示路由器 R1 作为同一自主系统内的 BGP peer。但是,您可以将 MetalLB 配置为与属于其他自主系统的同行启动 BGP 会话。 具有
speaker
pod 的所有节点(公告负载均衡器 IP 地址)都可以接收该服务的流量。-
如果服务的外部流量策略设置为
cluster
,则运行 speaker pod 的所有节点都会广告203.0.113.200
负载平衡器 IP 地址,具有speaker
pod 的所有节点都可以接收该服务的流量。只有外部流量策略设为 cluster 时,主机前缀才会广告给路由器对等点。 -
如果服务的外部流量策略设置为
local
,则运行speaker
Pod 的所有节点都会运行,并且至少有一个运行的服务端点可能会广告203.0.113.200
负载均衡器 IP 地址。只有这些节点才能接收该服务的流量。在上图中,节点 2 和 3 将公告203.0.113.200
。
-
如果服务的外部流量策略设置为
-
您可以在添加 BGP peer 自定义资源时指定节点选择器,将 MetalLB 配置为通过指定带有特定 BGP peer 的节点选择器来控制哪些
speaker
pod 启动 BGP 对等点。 - 任何配置为使用 BGP 的路由器(如 R1)都可以设置为 BGP 同级服务器。
- 客户端流量路由到主机网络上的其中一个节点。在流量进入节点后,服务代理会根据您为服务设置的外部流量策略,将流量发送到同一节点上的应用 pod 或其他节点。
- 如果节点不可用,路由器检测到失败,并启动与另一节点的新连接。您可以将 MetalLB 配置为将双向转发检测(BFD)配置集用于 BGP 对等点。BFD 提供更快的链路失败检测,以便路由器可以比没有 BFD 的情况下启动新连接。
30.1.7. 限制和限制
30.1.7.1. MetalLB 的基础架构注意事项
MetalLB 主要用于内部的裸机安装,因为这些安装不包含原生负载平衡器功能。除了裸机安装外,在有些基础架构上安装 OpenShift Container Platform 可能不包括原生负载均衡器功能。例如,以下基础架构可从添加 MetalLB Operator 中受益:
- 裸机
- VMware vSphere
OpenShift SDN 和 OVN-Kubernetes 网络供应商支持 MetalLB 和 MetalLB。
30.1.7.2. 第 2 层模式的限制
30.1.7.2.1. 单节点瓶颈
MetalLB 通过单一节点路由服务的所有流量,该节点可能会成为瓶颈并限制性能。
第 2 层模式将服务的入口带宽限制为单个节点的带宽。这是使用 ARP 和 NDP 定向流量的一个根本限制。
30.1.7.2.2. 延迟故障转移性能
节点之间的故障转移取决于客户端的合作。发生故障转移时,MetalLB 发送粒度 ARP 数据包来通知客户端与服务 IP 关联的 MAC 地址已更改。
大多数客户端操作系统正确处理细粒度 ARP 数据包,并及时更新其邻居缓存。当客户端快速更新其缓存时,故障转移将在几秒钟内完成。客户端通常在 10 秒内故障转移到新节点。但是,一些客户端操作系统或者根本不处理饱和的 ARP 数据包,或者存在延迟缓存更新的过时实施。
Windows、macOS 和 Linux 等常见操作系统的最新版本正确实现了第 2 层故障转移。除了较旧和不太常见的客户端操作系统外,预计不会出现故障转移较慢的问题。
为最大程度减轻计划内故障转移对过时客户端的影响,在颠倒领导地位后让旧节点保持运行几分钟。旧节点可以继续转发过期客户端的流量,直到其缓存刷新。
在计划外故障转移期间,服务 IP 无法访问,直到过期的客户端刷新其缓存条目为止。
30.1.7.2.3. 额外网络和 MetalLB 无法使用相同的网络
将相同的 VLAN 用于 MetalLB 和源 pod 上设置的额外网络接口可能会导致连接失败。当 MetalLB IP 和源 pod 驻留在同一节点上时,会出现这种情况。
为了避免连接失败,请将 MetalLB IP 放在源 pod 所在的不同子网中。此配置可确保来自源 pod 的流量将采用默认网关。因此,流量可以使用 OVN 覆盖网络有效地到达其目的地,确保连接功能如预期一样。
30.1.7.3. BGP 模式限制
30.1.7.3.1. 节点故障可能会破坏所有活跃的连接
MetalLB 共享一个限制,这是基于 BGP 的负载平衡。当 BGP 会话终止时,如节点失败或者 speaker
pod 重启时,会话终止可能会导致重置所有活跃的连接。最终用户可以 通过 peer 消息完成连接重置
。
所终止的 BGP 会话的结果是特定于路由器制造商的实现。但是,您可以预测 speaker
pod 数量的变化会影响 BGP 会话的数量,并且与 BGP 对等点的活动连接将中断。
为了避免或降低服务中断的可能性,您可以在添加 BGP 对等点时指定节点选择器。通过限制启动 BGP 会话的节点数量,没有 BGP 会话的节点出现错误不会影响到该服务的连接。
30.1.7.3.2. 只支持单个 ASN 和单个路由器 ID
当您添加 BGP peer 自定义资源时,您可以指定 spec.myASN
字段来识别 MetalLB 所属的 Autonomous System Number(ASN)。OpenShift Container Platform 使用带有 MetalLB 的 BGP 实施,它要求 MetalLB 属于单个 ASN。如果您试图添加 BGP peer 并为 spec.myASN
指定与现有的 BGP peer 自定义资源不同的值,您会收到一个错误。
同样,当您添加 BGP peer 自定义资源时,spec.routerID
字段是可选的。如果为此字段指定一个值,您必须为要添加的所有其他 BGP peer 自定义资源指定相同的值。
支持单个 ASN 和单个路由器 ID 的限制与支持的 MetalLB 实施不同。