第 1 章关于节点补救、隔离和维护

PDF

硬件是 imperfect，软件包含 bug。当节点级别的故障（如内核挂起或网络接口控制器(NIC)）失败时，集群所需的工作不会减少，并且受影响节点的工作负载需要在哪里重启。但是，一些工作负载（如 ReadWriteOnce (RWO) 卷和 StatefulSets）可能需要最少的语义。

影响这些工作负载的风险、损坏或两者的故障。在启动恢复工作负载（称为 补救 和理想情况）之前，确保节点达到安全状态（称为 隔离 ）。

并不总是依赖于管理员干预来确认节点和工作负载的真正状态。为了便于实现此类干预，Red Hat OpenShift 为自动化故障检测、隔离和修复提供了多个组件。

1.1. 自助服务修复

Self Node Remediation Operator 是一个 Red Hat OpenShift 附加组件 Operator，它实现了隔离的外部系统，补救重启不健康的节点并删除资源，如 Pod 和 VolumeAttachments。重启可确保工作负载被隔离，资源删除会加快重新调度受影响工作负载。与其他外部系统不同，自助节点修复不需要任何管理界面，如智能平台管理接口 (IPMI) 或用于节点置备的 API。

失败的检测系统可以使用自助服务修复，如 Machine Health Check 或 Node Health Check。

第 1 章关于节点补救、隔离和维护

1.1. 自助服务修复

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

第 1 章 关于节点补救、隔离和维护

1.1. 自助服务修复

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

第 1 章关于节点补救、隔离和维护