5.6. 使用 Poison Pill Operator 修复节点
您可以使用 Poison Pill Operator 自动重新引导不健康的节点。此补救策略可最小化有状态应用程序和 ReadWriteOnce (RWO) 卷的停机时间,并在发生临时故障时恢复计算容量。
5.6.1. 关于 Poison Pill Operator
Poison Pill Operator 在集群节点中运行,并重启被识别为不健康的节点。Operator 使用 MachineHealthCheck
控制器来检测集群中节点的健康状况。当节点被识别为不健康时,MachineHealthCheck
资源会创建 PoisonPillRemediation
自定义资源 (CR),这会触发 Poison Pill Operator。
Poison Pill Operator 提供了以下功能:
- 最小化有状态应用停机时间,并在发生瞬时故障时恢复计算容量。
- 独立于任何管理接口,如 IPMI 或用于调配节点的 API。
5.6.1.1. 了解 Poison Pill Operator 配置
Poison Pill Operator 在 Poison Pill Operator 命名空间中创建 PoisonPillConfig
CR,名称为 poison-pill-config
。您可以编辑这个 CR。但是,您无法为 Poison Pill Operator 创建新 CR。
PoisonPillConfig
CR 中的更改会重新创建 Poison Pill 守护进程集。
PoisonPillConfig
CR 类似以下 YAML 文件:
apiVersion: poison-pill.medik8s.io/v1alpha1 kind: PoisonPillConfig metadata: name: poison-pill-config namespace: openshift-operators spec: safeTimeToAssumeNodeRebootedSeconds: 180 1 watchdogFilePath: /test/watchdog1 2