第 1 章 关于节点补救、隔离和维护
硬件是 imperfect,软件包含 bug。当节点级别的故障(如内核挂起或网络接口控制器(NIC))失败时,集群所需的工作不会减少,并且受影响节点的工作负载需要在哪里重启。但是,一些工作负载(如 ReadWriteOnce (RWO) 卷和 StatefulSets)可能需要最少的语义。
影响这些工作负载的风险、损坏或两者的故障。在启动恢复工作负载(称为 补救
和理想情况)之前,确保节点达到安全状态(称为 隔离
)。
并不总是依赖于管理员干预来确认节点和工作负载的真正状态。为了便于实现此类干预,Red Hat OpenShift 为自动化故障检测、隔离和修复提供了多个组件。
1.1. 自助服务修复
Self Node Remediation Operator 是一个 Red Hat OpenShift 附加组件 Operator,它实现了隔离的外部系统,补救重启不健康的节点并删除资源,如 Pod 和 VolumeAttachments。重启可确保工作负载被隔离,资源删除会加快重新调度受影响工作负载。与其他外部系统不同,自助节点修复不需要任何管理界面,如智能平台管理接口 (IPMI) 或用于节点置备的 API。
失败的检测系统可以使用自助服务修复,如 Machine Health Check 或 Node Health Check。