升级 OpenShift AI 云服务
在 OpenShift Dedicated 或 Red Hat OpenShift Service on AWS (ROSA 经典)集群上升级 OpenShift AI
摘要
前言 复制链接链接已复制到粘贴板!
当有新版本或版本可用时,Red Hat OpenShift AI 附加组件会自动更新。
第 1 章 升级 OpenShift AI 概述 复制链接链接已复制到粘贴板!
当新版本或版本可用时,Red Hat OpenShift AI 会自动更新。目前,不需要管理员触发进程。
当发生 OpenShift AI 升级时,您应该 完成升级 OpenShift AI 的要求。
备注:
在 OpenShift AI 中使用加速器前,您的实例必须具有关联的加速器配置集或硬件配置集。如果您的 OpenShift 集群实例具有加速器,则升级后会保留其加速器配置集或硬件配置集。有关加速器的更多信息,请参阅使用加速器。
重要默认情况下,硬件配置集在仪表板导航菜单和用户界面中隐藏,而加速器配置集保持可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings → Hardware profiles 选项,以及与硬件配置集关联的用户界面组件,请在 OpenShift 中的
OdhDashboardConfig自定义资源(CR)中将disableHardwareProfiles值设置为false。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。- 笔记本镜像在升级过程中集成到镜像流中,然后出现在 OpenShift AI 仪表板中。笔记本镜像会在外部构建;它们是预先构建的镜像,这些镜像会每季度更改,且不会随每个 OpenShift AI 升级而改变。
在以前的版本中,OpenShift AI 中的数据科学管道基于 KubeFlow Pipelines v1。数据科学管道现在基于 KubeFlow Pipelines v2,它使用不同的工作流引擎。在 OpenShift AI 中默认启用和部署数据科学管道 2.0。
Data Science pipelines 1.0 资源不再受到 OpenShift AI 的支持或管理。升级到带有数据科学管道 2.0 的 OpenShift AI 后,无法再从仪表板或 KFP API 服务器部署、查看或编辑基于数据科学管道 1.0 的管道详情。如果您是当前的数据科学管道用户,请不要升级到带有数据科学管道 2.0 的 OpenShift AI,直到您准备好迁移到新的数据科学管道解决方案。
OpenShift AI 不会自动将现有数据科学管道 1.0 实例迁移到 2.0。如果您要使用数据科学管道 2.0 升级到 OpenShift AI,您必须手动迁移现有的数据科学项目 1.0 实例并更新您的工作台。如需更多信息,请参阅 迁移到数据科学管道 2.0。
Data Science pipelines 2.0 包含 Argo 工作流的安装。红帽不支持直接客户使用这个 Argo 工作流实例。要升级到带有数据科学管道 2.0 的 OpenShift AI,请确保集群没有单独的 Argo Workflows 实例。
第 2 章 为 OpenShift AI 配置升级策略 复制链接链接已复制到粘贴板!
作为集群管理员,您可以为 Red Hat OpenShift AI Operator 配置自动或手动升级策略。
默认情况下,Red Hat OpenShift AI Operator 会遵循一个连续的更新过程。这意味着,如果当前版本和您要升级到的版本之间有多个版本,Operator Lifecycle Manager (OLM)会在将其升级到最终目标版本前将 Operator 升级到每个中间版本。如果您配置自动升级,OLM 会自动将 Operator 升级到 最新的可用版本,而无需人为干预。如果配置手动升级,集群管理员必须手动批准当前版本和最终目标版本之间的每个连续更新。
有关支持的版本的详情,请查看 Red Hat OpenShift AI 生命周期 知识库文章。
先决条件
- 有 OpenShift 集群的集群管理员特权。
- 安装了 Red Hat OpenShift AI Operator。
流程
- 以集群管理员身份登录 OpenShift 集群 Web 控制台。
- 在 Administrator 视角中,在左侧菜单中选择 Operators → Installed Operators。
- 点 Red Hat OpenShift AI Operator。
- 点 Subscription 标签页。
在 Update approval 下,点铅笔图标并选择以下更新策略之一:
-
自动:在有新更新可用时即可安装新的更新。 -
手动:集群管理员必须在开始安装前批准任何新的更新。
-
- 点击 Save。
第 3 章 升级 OpenShift AI 的要求 复制链接链接已复制到粘贴板!
在升级 OpenShift AI 时,您必须完成以下任务。
检查 DataScienceCluster 对象中的组件
升级 Red Hat OpenShift AI 时,升级过程会自动使用之前 DataScienceCluster 对象中的值。
升级后,您应该检查 DataScienceCluster 对象,并选择性地更新任何组件的状态,如 使用 Web 控制台更新 Red Hat OpenShift AI 组件的安装状态 中所述。
在升级过程中,新组件不会自动添加到 DataScienceCluster 对象中。如果要使用新组件,必须手动编辑 DataScienceCluster 对象来添加组件条目。
迁移数据科学管道
在以前的版本中,OpenShift AI 中的数据科学管道基于 KubeFlow Pipelines v1。数据科学管道现在基于 KubeFlow Pipelines v2,它使用不同的工作流引擎。在 OpenShift AI 中默认启用和部署数据科学管道 2.0。
Data Science pipelines 1.0 资源不再受到 OpenShift AI 的支持或管理。无法再从仪表板或 KFP API 服务器部署、查看或编辑基于数据科学管道 1.0 的管道详情。
OpenShift AI 不会自动将现有数据科学管道 1.0 实例迁移到 2.0。在升级 OpenShift AI 前,您必须手动迁移现有的数据科学管道 1.0 实例。如需更多信息,请参阅 迁移到数据科学管道 2.0。
Data Science pipelines 2.0 包含 Argo 工作流的安装。红帽不支持直接客户使用这个 Argo 工作流实例。
如果您升级到启用了数据科学管道的 OpenShift AI,并且集群中存在没有由数据科学管道安装的 Argo Workflows 实例,则不会升级 OpenShift AI 组件。要完成组件升级,请禁用数据科学管道或删除 Argo 工作流的独立实例。组件升级将自动完成。
地址 KServe 要求
对于 KServe 组件,由单一模型服务平台用来服务大型模型,您必须满足以下要求:
- 要完全安装和使用 KServe,还必须为 Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator 并执行额外的配置。如需更多信息,请参阅 Serving 大模型。
-
如果要为单模式服务平台添加授权供应商,您必须安装
Red Hat - AuthorinoOperator。如需更多信息,请参阅为 单模式服务平台添加授权供应商。
地址 RAG 依赖项
如果您计划使用 Llama Stack 部署 Retrieval-Augmented Generation (RAG)工作负载,您必须满足以下要求:
- 在集群中有启用了 GPU 的节点,并且已安装了 Node Feature Discovery Operator 和 NVIDIA GPU Operator。如需更多信息,请参阅安装 Node Feature Discovery Operator 和 启用 NVIDIA GPU。
- 您可以访问模型工件的存储。
- 您已满足 KServe 安装先决条件。
更新与 OdhDashboardConfig 资源交互的工作流
在以前的版本中,集群管理员使用 OdhDashboardConfig 资源中的 groupsConfig 选项来管理可以访问 OpenShift AI 仪表板的 OpenShift 组(管理员和非管理员用户)。从 OpenShift AI 2.17 开始,此功能已移至 Auth 资源。如果您有与 OdhDashboardConfig 交互的工作流(如 GitOps 工作流),您必须更新它们以引用 Auth 资源。
| OpenShift AI 2.16 及更早版本 | OpenShift AI 2.17 及更新的版本 | |
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
| 管理员组 |
|
|
| 用户组 |
|
|
将嵌入式 Kueue 过渡到 Red Hat build of Kueue
用于管理分布式工作负载的嵌入式 Kueue 组件已弃用。OpenShift AI 现在使用红帽构建的 Kue Operator 在分布式培训、工作台和模型为工作负载提供增强的工作负载调度。
为确保工作负载继续使用队列管理,您必须从嵌入式 Kueue 组件迁移到红帽构建的 Kueue Operator,这需要 OpenShift Container Platform 4.18 或更高版本。如需更多信息,请参阅 迁移到红帽构建的 Kue Operator。
更新嵌入式 Kueue
如果您还没有迁移到 Kueue Operator 构建,您必须更新嵌入的 Kueue 组件。
在 OpenShift AI 中,集群管理员使用 Kueue 为分布式工作负载配置配额管理。
当从 OpenShift AI 2.17 或更早版本升级时,MultiKue Custom Resource Definitions (CRD)的版本从 v1alpha1 改为 v1beta1。
但是,如果 kueue 组件被设置为 Managed,Red Hat OpenShift AI Operator 不会在升级过程中自动删除 v1alpha1 MultiKueue CRD。然后,Kueue 组件的部署会被阻断,如 default-dsc DataScienceCluster 自定义资源中所示,其中 kueReady 条件的值仍然设置为 False。
您可以按照以下方法解决这个问题:
Red Hat OpenShift AI 目前不支持 MultiKueue 功能。如果您根据 MultiKueue CRD 创建任何资源,则在删除 CRD 时会删除这些资源。如果您不想丢失数据,请在删除 CRD 前创建备份。
- 登录 OpenShift 控制台。
- 在 Administrator 视角中,点 Administration → CustomResourceDefinitions。
-
在搜索字段中,输入
multik。 更新 MultiKueueCluster CRD,如下所示:
- 点 CRD 名称,然后点 YAML 选项卡。
确保
metadata:labels部分包含以下条目:app.opendatahub.io/kueue: 'true'
app.opendatahub.io/kueue: 'true'Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 点击 Save。
- 重复上述步骤,以更新 MultiKueConfig CRD。
通过为每个 CRD 完成以下步骤来删除 MultiKueCluster 和 MultiKueConfig CRD:
- 点 Actions 菜单。
- 点 Delete CustomResourceDefinition。
- 点 Delete 以确认删除。
Red Hat OpenShift AI Operator 启动 Kueue Controller,Kueue 会自动创建 v1beta1 MultiKueue CRD。在 default-dsc DataScienceCluster 自定义资源中,ku eueReady 条件更改为 True。有关如何检查 kue-controller-manager- <pod-id> pod 是否正在运行 的详情,请参阅安装分布式工作负载组件。
第 4 章 使用 Web 控制台更新 Red Hat OpenShift AI 组件的安装状态 复制链接链接已复制到粘贴板!
您可以使用 OpenShift Web 控制台更新 OpenShift 集群中 Red Hat OpenShift AI 组件的安装状态。
如果您升级了 OpenShift AI,升级过程会自动使用之前版本的 DataScienceCluster 对象的值。新组件不会自动添加到 DataScienceCluster 对象中。
升级 OpenShift AI 后:
-
检查默认的
DataScienceCluster对象,以检查并选择性地更新现有组件的managementState状态。 -
将任何新组件添加到
DataScienceCluster对象中。
先决条件
- Red Hat OpenShift AI 作为 Red Hat OpenShift 集群的附加组件安装。
- 有 OpenShift 集群的集群管理员特权。
流程
- 以集群管理员身份登录 OpenShift Web 控制台。
- 在 Web 控制台中,点 Operators → Installed Operators,然后点 Red Hat OpenShift AI Operator。
- 点 Data Science Cluster 选项卡。
-
在 DataScienceClusters 页面中,点
default-dsc对象。 点 YAML 标签。
嵌入式 YAML 编辑器会打开显示
DataScienceCluster对象的默认自定义资源(CR),如下例所示:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在 CR 的
spec.components部分中,对于所示的每个 OpenShift AI 组件,将managementState字段的值设置为Managed或Removed。这些值定义如下:- 受管
- Operator 会主动管理组件,安装它,并尝试保持其活跃。只有在组件安全时,Operator 才会升级组件。
- 删除
- Operator 会主动管理组件,但不安装它。如果组件已安装,Operator 将尝试将其删除。
重要- 要了解如何安装 KServe 组件(由单模式服务平台用来为大型模型提供服务),请参阅安装单model服务平台。
-
如果您还没有 启用 KServe 组件(即,将
managementState字段设置为Removed),还必须禁用依赖 Service Mesh 组件以避免错误。请参阅禁用 KServe 依赖项。 - 要了解如何安装分布式工作负载功能,请参阅安装分布式工作负载组件。
点击 Save。
对于您更新的任何组件,OpenShift AI 会启动一个推出影响所有 Pod 来使用更新的镜像。
如果您要从 OpenShift AI 2.19 或更早版本升级,请将 Authorino Operator 升级到
stable更新频道,版本 1.2.1 或更高版本。-
将 Authorino 更新至
tech-preview-v1频道(1.1.2)中最新可用版本(如果您还没有这样做)。 切换到
stable频道:- 导航到 Authorino Operator 的 Subscription 设置。
- 在 Update channel 下,单击突出显示的 tech-preview-v1。
-
将频道更改为
stable。
- 为 Authorino 1.2.1 选择更新选项。
-
将 Authorino 更新至
验证
确认每个组件至少有一个正在运行的 pod:
- 在 OpenShift Web 控制台中,点击 Workloads → Pods。
-
在页面顶部的 Project 列表中,选择
redhat-ods-applications或您的自定义应用程序命名空间。 - 在 applications 命名空间中,确认您安装的每个 OpenShift AI 组件都有一个或多个正在运行的 pod。
确认所有安装的组件的状态:
- 在 OpenShift Web 控制台中,点 Operators → Installed Operators。
- 点 Red Hat OpenShift AI Operator。
-
单击 Data Science Cluster 选项卡,再选择名为
default-dsc的DataScienceCluster对象。 - 选择 YAML 选项卡。
在
status.installedComponents部分中,确认您安装的组件的状态为true。注意如果组件显示 CR 的
spec.components部分中的component-name: {}格式,则不会安装该组件。
- 在 OpenShift AI 仪表板中,用户可以查看已安装的 OpenShift AI 组件列表、其相应的源(上游)组件以及安装的组件版本,如 查看已安装的 OpenShift AI 组件 中所述。