This documentation is for a release that is no longer maintained
See documentation for the latest supported version 3 or the latest supported version 4.11.4. 关于裸机的基于电源的补救
在裸机集群中,修复节点对于确保集群的整体健康状况至关重要。以物理方式修复集群可能会有一定难度,且在使机器进入安全或操作状态时出现任何延迟,这会增加集群处于降级状态的时间,以及后续故障可能会导致集群离线的风险。基于电源的补救可帮助解决此类问题。
基于电源的补救不重新置备节点,而是使用电源控制器关闭不可操作的节点。这种类型的补救也称为电源隔离。
OpenShift Container Platform 使用 MachineHealthCheck
控制器来检测出现故障的裸机节点。基于电源的补救速度会较快,它只重启有问题的节点,而不是从集群中移除。
基于电源的补救提供以下功能:
- 允许恢复 control plane 节点
- 在超聚合环境中减少了数据丢失的风险
- 减少了因为恢复物理机器造成的停机时间
11.4.1. 裸机上的 MachineHealthCheck 复制链接链接已复制到粘贴板!
在裸机集群上删除机器会触发重新置备裸机主机。通常,裸机重新置备是一个需要较长时间的过程,在这个过程中,集群缺少计算资源,应用程序可能会中断。要将默认补救过程从机器删除到主机的节能周期,请使用 machine.openshift.io/remediation-strategy: external-baremetal
注解来注解 MachineHealthCheck
资源。
设置注解后,不健康的机器会使用 BMC 凭证进行节能。
要排除基于电源补救的问题,请验证以下内容:
- 您可以访问 BMC。
- BMC 连接到负责运行补救任务的 control plane 节点。