升级 OpenShift AI 云服务


Red Hat OpenShift AI Cloud Service 1

在 OpenShift Dedicated 或 Red Hat OpenShift Service on AWS (ROSA 经典)集群上升级 OpenShift AI

摘要

在 OpenShift Dedicated 或 Red Hat OpenShift Service on AWS (ROSA 经典)集群上升级 OpenShift AI。

前言

当有新版本或版本可用时,Red Hat OpenShift AI 附加组件会自动更新。

第 1 章 升级 OpenShift AI 概述

当新版本或版本可用时,Red Hat OpenShift AI 会自动更新。目前,不需要管理员触发进程。

当发生 OpenShift AI 升级时,您应该 完成升级 OpenShift AI 的要求

备注:

  • 在 OpenShift AI 中使用加速器前,您的实例必须具有关联的加速器配置集或硬件配置集。如果您的 OpenShift 集群实例具有加速器,则升级后会保留其加速器配置集或硬件配置集。有关加速器的更多信息,请参阅使用加速器

    重要

    默认情况下,硬件配置集在仪表板导航菜单和用户界面中隐藏,而加速器配置集保持可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings → Hardware profiles 选项,以及与硬件配置集关联的用户界面组件,请在 OpenShift 中的 OdhDashboardConfig 自定义资源(CR)中将 disableHardwareProfiles 值设置为 false。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板

  • 笔记本镜像在升级过程中集成到镜像流中,然后出现在 OpenShift AI 仪表板中。笔记本镜像会在外部构建;它们是预先构建的镜像,这些镜像会每季度更改,且不会随每个 OpenShift AI 升级而改变。
重要

在以前的版本中,OpenShift AI 中的数据科学管道基于 KubeFlow Pipelines v1。数据科学管道现在基于 KubeFlow Pipelines v2,它使用不同的工作流引擎。在 OpenShift AI 中默认启用和部署数据科学管道 2.0。

Data Science pipelines 1.0 资源不再受到 OpenShift AI 的支持或管理。升级到带有数据科学管道 2.0 的 OpenShift AI 后,无法再从仪表板或 KFP API 服务器部署、查看或编辑基于数据科学管道 1.0 的管道详情。如果您是当前的数据科学管道用户,请不要升级到带有数据科学管道 2.0 的 OpenShift AI,直到您准备好迁移到新的数据科学管道解决方案。

OpenShift AI 不会自动将现有数据科学管道 1.0 实例迁移到 2.0。如果您要使用数据科学管道 2.0 升级到 OpenShift AI,您必须手动迁移现有的数据科学项目 1.0 实例并更新您的工作台。如需更多信息,请参阅 迁移到数据科学管道 2.0

Data Science pipelines 2.0 包含 Argo 工作流的安装。红帽不支持直接客户使用这个 Argo 工作流实例。要升级到带有数据科学管道 2.0 的 OpenShift AI,请确保集群没有单独的 Argo Workflows 实例。

第 2 章 为 OpenShift AI 配置升级策略

作为集群管理员,您可以为 Red Hat OpenShift AI Operator 配置自动或手动升级策略。

重要

默认情况下,Red Hat OpenShift AI Operator 会遵循一个连续的更新过程。这意味着,如果当前版本和您要升级到的版本之间有多个版本,Operator Lifecycle Manager (OLM)会在将其升级到最终目标版本前将 Operator 升级到每个中间版本。如果您配置自动升级,OLM 会自动将 Operator 升级到 最新的可用版本,而无需人为干预。如果配置手动升级,集群管理员必须手动批准当前版本和最终目标版本之间的每个连续更新。

有关支持的版本的详情,请查看 Red Hat OpenShift AI 生命周期 知识库文章。

先决条件

  • 有 OpenShift 集群的集群管理员特权。
  • 安装了 Red Hat OpenShift AI Operator。

流程

  1. 以集群管理员身份登录 OpenShift 集群 Web 控制台。
  2. Administrator 视角中,在左侧菜单中选择 OperatorsInstalled Operators
  3. Red Hat OpenShift AI Operator。
  4. Subscription 标签页。
  5. Update approval 下,点铅笔图标并选择以下更新策略之一:

    • 自动 :在有新更新可用时即可安装新的更新。
    • 手动 :集群管理员必须在开始安装前批准任何新的更新。
  6. 点击 Save

第 3 章 升级 OpenShift AI 的要求

在升级 OpenShift AI 时,您必须完成以下任务。

检查 DataScienceCluster 对象中的组件

升级 Red Hat OpenShift AI 时,升级过程会自动使用之前 DataScienceCluster 对象中的值。

升级后,您应该检查 DataScienceCluster 对象,并选择性地更新任何组件的状态,如 使用 Web 控制台更新 Red Hat OpenShift AI 组件的安装状态 中所述。

注意

在升级过程中,新组件不会自动添加到 DataScienceCluster 对象中。如果要使用新组件,必须手动编辑 DataScienceCluster 对象来添加组件条目。

迁移数据科学管道

在以前的版本中,OpenShift AI 中的数据科学管道基于 KubeFlow Pipelines v1。数据科学管道现在基于 KubeFlow Pipelines v2,它使用不同的工作流引擎。在 OpenShift AI 中默认启用和部署数据科学管道 2.0。

Data Science pipelines 1.0 资源不再受到 OpenShift AI 的支持或管理。无法再从仪表板或 KFP API 服务器部署、查看或编辑基于数据科学管道 1.0 的管道详情。

OpenShift AI 不会自动将现有数据科学管道 1.0 实例迁移到 2.0。在升级 OpenShift AI 前,您必须手动迁移现有的数据科学管道 1.0 实例。如需更多信息,请参阅 迁移到数据科学管道 2.0

重要

Data Science pipelines 2.0 包含 Argo 工作流的安装。红帽不支持直接客户使用这个 Argo 工作流实例。

如果您升级到启用了数据科学管道的 OpenShift AI,并且集群中存在没有由数据科学管道安装的 Argo Workflows 实例,则不会升级 OpenShift AI 组件。要完成组件升级,请禁用数据科学管道或删除 Argo 工作流的独立实例。组件升级将自动完成。

地址 KServe 要求

对于 KServe 组件,由单一模型服务平台用来服务大型模型,您必须满足以下要求:

  • 要完全安装和使用 KServe,还必须为 Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator 并执行额外的配置。如需更多信息,请参阅 Serving 大模型
  • 如果要为单模式服务平台添加授权供应商,您必须安装 Red Hat - Authorino Operator。如需更多信息,请参阅为 单模式服务平台添加授权供应商

地址 RAG 依赖项

如果您计划使用 Llama Stack 部署 Retrieval-Augmented Generation (RAG)工作负载,您必须满足以下要求:

更新与 OdhDashboardConfig 资源交互的工作流

在以前的版本中,集群管理员使用 OdhDashboardConfig 资源中的 groupsConfig 选项来管理可以访问 OpenShift AI 仪表板的 OpenShift 组(管理员和非管理员用户)。从 OpenShift AI 2.17 开始,此功能已移至 Auth 资源。如果您有与 OdhDashboardConfig 交互的工作流(如 GitOps 工作流),您必须更新它们以引用 Auth 资源。

Expand
表 3.1. 用户管理资源更新
 OpenShift AI 2.16 及更早版本OpenShift AI 2.17 及更新的版本

apiVersion

opendatahub.io/v1alpha

services.platform.opendatahub.io/v1alpha1

kind

OdhDashboardConfig

Auth

名称

odh-dashboard-config

auth

管理员组

spec.groupsConfig.adminGroups

spec.adminGroups

用户组

spec.groupsConfig.allowedGroups

spec.allowedGroups

将嵌入式 Kueue 过渡到 Red Hat build of Kueue

用于管理分布式工作负载的嵌入式 Kueue 组件已弃用。OpenShift AI 现在使用红帽构建的 Kue Operator 在分布式培训、工作台和模型为工作负载提供增强的工作负载调度。

为确保工作负载继续使用队列管理,您必须从嵌入式 Kueue 组件迁移到红帽构建的 Kueue Operator,这需要 OpenShift Container Platform 4.18 或更高版本。如需更多信息,请参阅 迁移到红帽构建的 Kue Operator

更新嵌入式 Kueue

如果您还没有迁移到 Kueue Operator 构建,您必须更新嵌入的 Kueue 组件。

在 OpenShift AI 中,集群管理员使用 Kueue 为分布式工作负载配置配额管理。

当从 OpenShift AI 2.17 或更早版本升级时,MultiKue Custom Resource Definitions (CRD)的版本从 v1alpha1 改为 v1beta1

但是,如果 kueue 组件被设置为 Managed,Red Hat OpenShift AI Operator 不会在升级过程中自动删除 v1alpha1 MultiKueue CRD。然后,Kueue 组件的部署会被阻断,如 default-dsc DataScienceCluster 自定义资源中所示,其中 kueReady 条件的值仍然设置为 False

您可以按照以下方法解决这个问题:

注意

Red Hat OpenShift AI 目前不支持 MultiKueue 功能。如果您根据 MultiKueue CRD 创建任何资源,则在删除 CRD 时会删除这些资源。如果您不想丢失数据,请在删除 CRD 前创建备份。

  1. 登录 OpenShift 控制台。
  2. Administrator 视角中,点 Administration → CustomResourceDefinitions
  3. 在搜索字段中,输入 multik
  4. 更新 MultiKueueCluster CRD,如下所示:

    1. 点 CRD 名称,然后点 YAML 选项卡。
    2. 确保 metadata:labels 部分包含以下条目:

      app.opendatahub.io/kueue: 'true'
      Copy to Clipboard Toggle word wrap
    3. 点击 Save
  5. 重复上述步骤,以更新 MultiKueConfig CRD。
  6. 通过为每个 CRD 完成以下步骤来删除 MultiKueCluster 和 MultiKueConfig CRD:

    1. Actions 菜单。
    2. Delete CustomResourceDefinition
    3. Delete 以确认删除。

Red Hat OpenShift AI Operator 启动 Kueue Controller,Kueue 会自动创建 v1beta1 MultiKueue CRD。在 default-dsc DataScienceCluster 自定义资源中,ku eueReady 条件更改为 True。有关如何检查 kue-controller-manager- <pod-id> pod 是否正在运行 的详情,请参阅安装分布式工作负载组件

您可以使用 OpenShift Web 控制台更新 OpenShift 集群中 Red Hat OpenShift AI 组件的安装状态。

重要

如果您升级了 OpenShift AI,升级过程会自动使用之前版本的 DataScienceCluster 对象的值。新组件不会自动添加到 DataScienceCluster 对象中。

升级 OpenShift AI 后:

  • 检查默认的 DataScienceCluster 对象,以检查并选择性地更新现有组件的 managementState 状态。
  • 将任何新组件添加到 DataScienceCluster 对象中。

先决条件

  • Red Hat OpenShift AI 作为 Red Hat OpenShift 集群的附加组件安装。
  • 有 OpenShift 集群的集群管理员特权。

流程

  1. 以集群管理员身份登录 OpenShift Web 控制台。
  2. 在 Web 控制台中,点 OperatorsInstalled Operators,然后点 Red Hat OpenShift AI Operator。
  3. Data Science Cluster 选项卡。
  4. DataScienceClusters 页面中,点 default-dsc 对象。
  5. YAML 标签。

    嵌入式 YAML 编辑器会打开显示 DataScienceCluster 对象的默认自定义资源(CR),如下例所示:

    apiVersion: datasciencecluster.opendatahub.io/v1
    kind: DataScienceCluster
    metadata:
      name: default-dsc
    spec:
      components:
        codeflare:
          managementState: Removed
        dashboard:
          managementState: Removed
        datasciencepipelines:
          managementState: Removed
        kserve:
          managementState: Removed
        kueue:
          managementState: Removed
        llamastackoperator:
          managementState: Removed
        modelmeshserving:
          managementState: Removed
        ray:
          managementState: Removed
        trainingoperator:
          managementState: Removed
        trustyai:
          managementState: Removed
        workbenches:
          managementState: Removed
          workbenchNamespace: rhods-notebooks
    Copy to Clipboard Toggle word wrap
  6. 在 CR 的 spec.components 部分中,对于所示的每个 OpenShift AI 组件,将 managementState 字段的值设置为 ManagedRemoved。这些值定义如下:

    受管
    Operator 会主动管理组件,安装它,并尝试保持其活跃。只有在组件安全时,Operator 才会升级组件。
    删除
    Operator 会主动管理组件,但不安装它。如果组件已安装,Operator 将尝试将其删除。
    重要
  7. 点击 Save

    对于您更新的任何组件,OpenShift AI 会启动一个推出影响所有 Pod 来使用更新的镜像。

  8. 如果您要从 OpenShift AI 2.19 或更早版本升级,请将 Authorino Operator 升级到 stable 更新频道,版本 1.2.1 或更高版本。

    1. 将 Authorino 更新至 tech-preview-v1 频道(1.1.2)中最新可用版本(如果您还没有这样做)。
    2. 切换到 stable 频道:

      1. 导航到 Authorino Operator 的 Subscription 设置。
      2. Update channel 下,单击突出显示的 tech-preview-v1
      3. 将频道更改为 stable
    3. 为 Authorino 1.2.1 选择更新选项。

验证

  1. 确认每个组件至少有一个正在运行的 pod:

    1. 在 OpenShift Web 控制台中,点击 WorkloadsPods
    2. 在页面顶部的 Project 列表中,选择 redhat-ods-applications 或您的自定义应用程序命名空间。
    3. 在 applications 命名空间中,确认您安装的每个 OpenShift AI 组件都有一个或多个正在运行的 pod。
  2. 确认所有安装的组件的状态:

    1. 在 OpenShift Web 控制台中,点 OperatorsInstalled Operators
    2. Red Hat OpenShift AI Operator。
    3. 单击 Data Science Cluster 选项卡,再选择名为 default-dscDataScienceCluster 对象。
    4. 选择 YAML 选项卡。
    5. status.installedComponents 部分中,确认您安装的组件的状态为 true

      注意

      如果组件显示 CR 的 spec.components 部分中的 component-name: {} 格式,则不会安装该组件。

  3. 在 OpenShift AI 仪表板中,用户可以查看已安装的 OpenShift AI 组件列表、其相应的源(上游)组件以及安装的组件版本,如 查看已安装的 OpenShift AI 组件 中所述。

法律通告

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部