第 13 章 节点维护
13.1. 关于节点维护
13.1.1. 关于节点维护模式
节点可以使用 oc adm
实用程序或者使用 NodeMaintenance
自定义资源(CR)置于维护模式。
OpenShift Virtualization 不再提供 node-maintenance-operator
(NMO)。现在,它可以被部署为 OpenShift Container Platform Web 控制台中的 OperatorHub 的独立 Operator,或使用 OpenShift CLI (oc
)。
将节点置于维护中可将节点标记为不可调度,并排空其中的所有虚拟机和 pod。具有 LiveMigrate
驱除策略的虚拟机实例实时迁移到另一节点不会丢失服务。在从通用模板创建的虚拟机中默认配置此驱除策略,而自定义虚拟机则必须手动更配置。
没有驱除策略的虚拟机实例将被关闭。具有 Running
或 RerunOnFailure
的 RunStrategy
的虚拟机会在另一节点上重新创建。带有 Manual
的 RunStrategy
虚拟机不会被自动重启。
虚拟机必须具有一个采用共享 ReadWriteMany
(RWX)访问模式的 PVC 才能实时迁移。
Node Maintenance Operator 监视是否有新的或删除的 NodeMaintenance
CR。当检测到新的 NodeMaintenance
CR 时,不会调度新的工作负载,并且该节点从集群的其余部分中分离。所有可被驱除的 pod 都会从节点上驱除。删除 NodeMaintenance
CR 时,CR 中引用的节点将可用于新工作负载。
使用 NodeMaintenance
CR 进行节点维护任务可实现与 oc adm cordon
和 oc adm drain
命令相同的结果,使用标准 OpenShift Container Platform 自定义资源处理。
13.1.2. 维护裸机节点
当您在裸机基础架构上部署 OpenShift Container Platform 时,与在云基础架构上部署相比,还需要考虑其他的注意事项。与集群节点被视为临时的云环境中不同,重新置备裸机节点需要大量时间和精力进行维护任务。
当裸机节点出现故障时,例如,如果发生致命内核错误或发生 NIC 卡硬件故障,在修复或替换问题节点时,故障节点上的工作负载需要重启。节点维护模式允许集群管理员安全关闭节点,将工作负载移到集群的其它部分,并确保工作负载不会中断。详细进度和节点状态详情会在维护过程中提供。