5.13. 配置领导选举机制
在 Operator 的生命周期中,在任意给定时间可能有多个实例在运行,例如,推出 Operator 升级程序。这种情况下,需要使用领导选举机制来避免多个 Operator 实例争用。这样可确保只有一个领导实例处理协调,其他实例均不活跃,但却会做好准备,随时接管领导实例的的工作。
有两种不同的领导选举实现可供选择,每种机制都有各自的利弊权衡问题:
- leader-for-life
-
领导 pod 只在删除垃圾回收时放弃领导权。这种实现可以避免两个实例错误地作为领导运行,一个也被称为“裂脑(split brain)”的状态。但这种方法可能会延迟选举新的领导。例如,当领导 pod 位于无响应或分区的节点上时,您可以在领导 pod 上指定
node.kubernetes.io/unreachable
和node.kubernetes.io/not-ready
容限,并使用tolerationSeconds
值来指定领导 pod 从节点删除所需的时间,并缩减。这些容限默认添加到 pod 的准入中,tolerationSeconds
值为 5 分钟。详情请参见 Leader-for-life Go 文档。 - Leader-with-lease
- 领导 pod 定期更新领导租期,并在无法更新租期时放弃领导权。当现有领导 Pod 被隔离时,这种实现方式可更快速地过渡至新领导,但在某些情况下存在脑裂的可能性。详情请参见 Leader-with-lease Go 文档。
Operator SDK 默认启用 Leader-for-life 实现。请查阅相关的 Go 文档来了解这两种方法,以考虑对您的用例来说有意义的利弊得失。
红帽支持的 Operator SDK CLI 工具版本,包括 Operator 项目的相关构建和测试工具已被弃用,计划在以后的 Red Hat OpenShift Service on AWS 发行版本中删除。红帽将在当前发行生命周期中提供对这个功能的程序错误修复和支持,但此功能将不再获得改进,并将在以后的 Red Hat OpenShift Service on AWS 发行版本中删除。
对于创建新 Operator 项目,不建议使用红帽支持的 Operator SDK 版本。现有 Operator 项目的 Operator 作者可以使用 Red Hat OpenShift Service on AWS 4 发布的 Operator SDK CLI 工具版本来维护其项目,并创建针对较新版本的 Red Hat OpenShift Service on AWS 的 Operator 发行版本。
以下与 Operator 项目相关的基础镜像 没有被弃用。这些基础镜像的运行时功能和配置 API 仍然会有程序错误修复和并提供对相关 CVE 的解决方案。
- 基于 Ansible 的 Operator 项目的基础镜像
- 基于 Helm 的 Operator 项目的基础镜像
有关 Operator SDK 不支持的、社区维护版本的信息,请参阅 Operator SDK (Operator Framework)。
5.13.1. Operator 领导选举示例
以下示例演示了如何为 Operator、Leader-for-life 和 Leader-with-lease 使用两个领导选举选项。
5.13.1.1. leader-for-life 选举机制
实现 Leader-for-life 选举机制时,调用 leader.Become()
会在 Operator 重试时进行阻止,直至通过创建名为 memcached-operator-lock
的配置映射使其成为领导:
import ( ... "github.com/operator-framework/operator-sdk/pkg/leader" ) func main() { ... err = leader.Become(context.TODO(), "memcached-operator-lock") if err != nil { log.Error(err, "Failed to retry for leader lock") os.Exit(1) } ... }
如果 Operator 不在集群内运行,则只会返回 leader.Become()
而无任何错误,以跳过该领导选举机制,因其无法检测 Operator 的名称。
5.13.1.2. Leader-with-lease 选举机制
Leader-with-lease 实现可使用 Manager Options 来启用以作为领导选举机制:
import ( ... "sigs.k8s.io/controller-runtime/pkg/manager" ) func main() { ... opts := manager.Options{ ... LeaderElection: true, LeaderElectionID: "memcached-operator-lock" } mgr, err := manager.New(cfg, opts) ... }
当 Operator 没有在集群中运行时,Manager 会在启动时返回一个错误,因为它无法检测到 Operator 的命名空间,以便为领导选举机制创建配置映射。您可通过设置 Manager 的 LeaderElectionNamespace
选项来覆盖该命名空间。