第 2 章 使用自节点修复
您可以使用 Self Node Remediation Operator 自动重新引导不健康的节点。此补救策略可最小化有状态应用程序和 ReadWriteOnce (RWO) 卷的停机时间,并在发生临时故障时恢复计算容量。
2.1. 关于自助服务修复 Operator 复制链接链接已复制到粘贴板!
Self Node Remediation Operator 在集群节点上运行,并重启被识别为不健康的节点。Operator 使用 MachineHealthCheck
或 NodeHealthCheck
控制器来检测集群中节点的健康状态。当节点识别为不健康时,MachineHealthCheck
或 NodeHealthCheck
资源会创建 SelfNodeRemediation
自定义资源(CR),这会触发 Self Node Remediation Operator。
SelfNodeRemediation
CR 类似于以下 YAML 文件:
Self Node Remediation Operator 最小化有状态应用程序的停机时间,并在出现临时故障时恢复计算容量。无论 IPMI 或 API 等管理界面如何置备节点,都可使用此 Operator 来置备节点,无论集群安装类型是什么,如安装程序置备的基础架构或用户置备的基础架构。
2.1.1. 关于 watchdog 设备 复制链接链接已复制到粘贴板!
watchdog 设备可以是以下任意一种:
- 独立电源的硬件设备
- 与它们控制的主机共享电源的硬件设备
-
软件或
softdog
中实施的虚拟设备
硬件 watchdog 和 softdog
设备分别具有电子计时器和软件计时器。这些 watchdog 设备用于确保在检测到错误条件时机器进入安全状态。集群需要重复重置 watchdog 定时器以证明它处于健康状态。此计时器可能会因为出现错误条件而造成问题,如死锁、CPU 不足以及网络或磁盘访问的丢失。如果计时器过期,watchdog 设备会假设发生了错误,设备会触发强制重置节点。
硬件 watchdog 设备比 softdog
设备更可靠。
2.1.1.1. 了解 watchdog 设备的自助服务修复 Operator 行为 复制链接链接已复制到粘贴板!
Self Node Remediation Operator 根据存在的 watchdog 设备决定补救策略。
如果配置了硬件 watchdog 设备并可用,Operator 会使用它进行补救。如果没有配置硬件 watchdog 设备,Operator 会启用并使用 softdog
设备进行补救。
如果既不支持 watchdog 设备,无论是系统或配置,Operator 都会使用软件重启来修复节点。