第 9 章 部署机器健康检查
您可以配置和部署机器健康检查,以自动修复机器池中损坏的机器。
MachineHealthCheck 只是一个技术预览功能。红帽产品服务等级协议 (SLA) 不支持技术预览功能,并且这些功能可能并不完善。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的详情,请参阅 https://access.redhat.com/support/offerings/techpreview/。
此过程不适用于自己手动置备机器的集群。您只能在使用机器 API 的集群中使用高级机器管理和扩展功能。
先决条件
启用 FeatureGate,以便可以访问技术预览功能。
注意开启技术预览功能后无法撤消操作,而且会妨碍升级。
9.1. 关于 MachineHealthCheck
MachineHealthCheck 可自动修复特定 MachinePool 中不正常的 Machine。
要监控机器的健康状况,您可以创建资源来定义控制器的配置。设置要检查的条件(例如,处于 NotReady
状态达到 15 分钟或 node-problem-detector 中显示了持久性状况),以及用于要监控的机器集合的标签。
您无法将 MachineHealthCheck 应用到具有主控机(master)角色的机器。
监控 MachineHealthCheck 资源的控制器将检查是否出现了您定义的状态。如果机器不能通过健康检查,会自动被删除并创建新的机器来代替它。删除机器之后,您会看到机器被删除
事件。为限制删除机器造成的破坏性影响,控制器一次仅清空并删除一个节点。
若要停止检查,请删除其资源。