5.6. 使用 Poison Pill Operator 修复节点


您可以使用 Poison Pill Operator 自动重新引导不健康的节点。此补救策略可最小化有状态应用程序和 ReadWriteOnce (RWO) 卷的停机时间,并在发生临时故障时恢复计算容量。

5.6.1. 关于 Poison Pill Operator

Poison Pill Operator 在集群节点中运行,并重启被识别为不健康的节点。Operator 使用 MachineHealthCheck 控制器来检测集群中节点的健康状况。当节点被识别为不健康时,MachineHealthCheck 资源会创建 PoisonPillRemediation 自定义资源 (CR),这会触发 Poison Pill Operator。

Poison Pill Operator 提供了以下功能:

  • 最小化有状态应用停机时间,并在发生瞬时故障时恢复计算容量。
  • 独立于任何管理接口,如 IPMI 或用于调配节点的 API。

5.6.1.1. 了解 Poison Pill Operator 配置

Poison Pill Operator 在 Poison Pill Operator 命名空间中创建 PoisonPillConfig CR,名称为 poison-pill-config。您可以编辑这个 CR。但是,您无法为 Poison Pill Operator 创建新 CR。

PoisonPillConfig CR 中的更改会重新创建 Poison Pill 守护进程集。

PoisonPillConfig CR 类似以下 YAML 文件:

apiVersion: poison-pill.medik8s.io/v1alpha1
kind: PoisonPillConfig
metadata:
  name: poison-pill-config
  namespace: openshift-operators
spec:
  safeTimeToAssumeNodeRebootedSeconds: 180 1
  watchdogFilePath: /test/watchdog1 2
1
指定存活对等点的超时持续时间,然后 Operator 可以假定一个不健康的节点已被重启。Operator 自动计算这个值的下限。但是,如果不同的节点有不同的 watchdog 超时,则必须将此值改为更高的值。
2
指定节点中 watchdog 设备的文件路径。如果 watchdog 设备不可用,PisonPillConfig CR 将使用软件重新引导。
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.