5.14. 受管集群生命周期管理
要在网络边缘置备和管理站点,请在 hub 和spoke 架构中使用 GitOps ZTP,其中单个 hub 集群管理许多受管集群。
spoke 集群的生命周期管理可分为两个不同的阶段:集群部署,包括 OpenShift Container Platform 安装和集群配置。
5.14.1. 受管集群部署 复制链接链接已复制到粘贴板!
- 描述
-
从 Red Hat Advanced Cluster Management (RHACM) 2.12 开始,使用 SiteConfig Operator 是部署受管集群的推荐方法。SiteConfig Operator 引入了一个统一的 ClusterInstance API,它将参数与部署集群的方式分离。SiteConfig Operator 使用一组集群模板,这些模板使用
ClusterInstance
自定义资源(CR)的数据实例化来动态生成安装清单。根据 GitOps 方法,ClusterInstance
CR 通过 ArgoCD 从 Git 存储库提供。ClusterInstance
CR 可以用来使用 Assisted Installer 启动集群安装,或者在多集群引擎中可用基于镜像的安装。 - 限制和要求
-
处理 SiteConfig CR 的
SiteConfig
ArgoCD 插件已从 OpenShift Container Platform 4.18 中弃用。
-
处理 SiteConfig CR 的
- 工程考虑
-
您必须使用集群基板管理控制器(BMC)的登录信息创建一个
Secret
CR。然后,在SiteConfig
CR 中引用此Secret
CR。可以使用 Vault 等机密存储集成来管理机密。 - 除了提供 Git 和非 Git 工作流的部署方法隔离和取消验证外,SiteConfig Operator 还为使用自定义模板提供了更好的可扩展性、更大的灵活性以及增强的故障排除体验。
-
您必须使用集群基板管理控制器(BMC)的登录信息创建一个
5.14.2. 受管集群更新 复制链接链接已复制到粘贴板!
- 描述
您可以通过在以要升级集群的
Policy
自定义资源(CR)中声明所需的版本来升级 OpenShift Container Platform、第 2 天 Operator 和受管集群配置的版本。策略控制器定期检查策略合规性。如果结果为负数,则创建一个违反报告。如果将策略补救操作设置为
enforce
根据更新的策略修复违反情况。如果将策略补救操作设置为inform
,则进程以不合规的状态报告结束,并且由用户启动升级负责在适当的维护窗口期间执行。Topology Aware Lifecycle Manager (TALM)扩展 Red Hat Advanced Cluster Management (RHACM),其功能在集群生命周期中管理升级或配置的推出。它以集群进度、有限大小批处理运行。当需要升级到 OpenShift Container Platform 或第 2 天 Operator 时,TALM 会逐渐推出更新,方法是逐步完成一组策略并将其切换到 "enforce" 策略以将配置推送到受管集群。
TALM 用来构建补救计划的自定义资源(CR)是
ClusterGroupUpgrade
CR。您可以将基于镜像的升级(IBU)与生命周期代理一起使用,作为单节点 OpenShift 集群平台版本的替代升级路径。IBU 使用从专用 seed 集群生成的 OCI 镜像在目标集群上安装单节点 OpenShift。
TALM 使用
ImageBasedGroupUpgrade
CR 将基于镜像的升级发布到一组已识别的集群。- 限制和要求
-
您可以使用基于镜像的升级来对单节点 OpenShift 集群之间进行升级,从 OpenShift Container Platform
<4.y>
升级到<4.y+2>
,从<4.y.z>
到<4.y.z+n>
。 - 基于镜像的升级使用特定于集群运行的硬件平台的自定义镜像。不同的硬件平台需要单独的 seed 镜像。
-
您可以使用基于镜像的升级来对单节点 OpenShift 集群之间进行升级,从 OpenShift Container Platform
- 工程考虑
-
在边缘部署中,您可以通过管理时间和推出更改来最小化受管集群的中断。将所有策略设置为
inform
以监控合规性,而不触发自动强制。同样,将第 2 天 Operator 订阅配置为 manual,以防止在调度的维护窗口外进行更新。 - 推荐的单节点 OpenShift 集群的升级升级是基于镜像的升级。
对于多节点集群升级,请考虑以下
MachineConfigPool
CR 配置来减少升级时间:-
通过将
paused
字段设置为true
,在维护窗口期间暂停配置部署到节点。 -
调整
maxUnavailable
字段,以控制池中可以同时更新多少个节点。MaxUnavailable
字段定义池中节点在MachineConfig
对象更新期间可同时不可用的百分比。将maxUnavailable
设置为最大可容忍的值。这可减少升级过程中的重启次数,从而缩短升级时间。 -
通过将
paused
字段设置为false
来恢复配置部署。配置更改在单个重启中应用。
-
通过将
-
在集群安装过程中,您可以通过将
paused
字段设置为true
并将maxUnavailable
设置为 100% 以改进安装时间来暂停MachineConfigPool
CR。
-
在边缘部署中,您可以通过管理时间和推出更改来最小化受管集群的中断。将所有策略设置为