第 3 章 安装并部署 OpenShift AI
Red Hat OpenShift AI 是一个面向人工智能(AI) 应用程序的数据科学家和开发人员的平台。它提供了一个完全支持的环境,可让您在公共云中快速开发、培训、测试和部署机器学习模型。
OpenShift AI 作为受管云服务附加组件提供给 Red Hat OpenShift,或作为自我管理的软件提供,您可以在 OpenShift 上安装内部或公有云。
有关在断开连接的环境中在 OpenShift 集群上安装 OpenShift AI 作为自我管理的软件的详情,请参考在断开连接的环境中 安装和卸载 OpenShift AI Self-Managed。有关将 OpenShift AI 作为受管云服务附加组件安装的详情,请参考 安装和卸载 OpenShift AI Cloud Service。
Data Science pipelines 2.0 包含 Argo 工作流的安装。红帽不支持直接使用 Argo 工作流安装。要使用数据科学管道安装 OpenShift AI 2.9 或更高版本,请确保集群中没有单独的 Argo 工作流安装。
安装 OpenShift AI 涉及以下高级别任务:
- 确认 OpenShift 集群满足所有要求。请参阅 OpenShift AI Self-Managed 的要求。
- 为 OpenShift 添加管理用户。请参阅在 OpenShift 中添加管理用户。
- 安装 Red Hat OpenShift AI Operator。请参阅安装 Red Hat OpenShift AI Operator。
- 安装 OpenShift AI 组件。请参阅 安装和管理 Red Hat OpenShift AI 组件。
- 配置用户和管理员组,为用户提供 OpenShift AI 的访问权限。请参阅 将用户添加到 OpenShift AI 用户组。
- 访问 OpenShift AI 仪表板。请参阅 访问 OpenShift AI 仪表板。
- (可选)在 OpenShift AI 中配置并启用您的加速器,以确保数据科学家可以在其模型中使用计算密集型工作负载。请参阅启用加速器。
3.1. OpenShift AI 自我管理的要求 复制链接链接已复制到粘贴板!
在 Red Hat OpenShift 集群上安装 Red Hat OpenShift AI 前,您必须满足以下要求:
产品订阅
- 您必须有 Red Hat OpenShift AI Self-Managed 订阅。
如果要在红帽管理的云环境中安装 OpenShift AI Self-Managed,则需要订阅以下平台之一:
- Amazon Web Services (AWS)或 Google Cloud Platform (GCP)上的 Red Hat OpenShift Dedicated
- Red Hat OpenShift Service on Amazon Web Services (ROSA Classic)
- 带有托管 control plane (ROSA HCP)的 Amazon Web Services 上的 Red Hat OpenShift Service
Microsoft Azure Red Hat OpenShift
请联系您的红帽客户经理购买新的订阅。如果您还没有帐户管理器,请在 https://www.redhat.com/en/contact 中填写表单以请求一个。
集群管理员对 OpenShift 集群的访问权限
您必须有一个具有集群管理员访问权限的 OpenShift 集群。使用现有集群,或按照相关文档中的步骤创建集群:
- OpenShift Container Platform 4.14 或更高版本: OpenShift Container Platform 安装概述
- OpenShift Dedicated: 创建 OpenShift Dedicated 集群
- ROSA Classic: 安装 ROSA 经典集群
- ROSA HCP: 安装带有 HCP 集群的 ROSA
- 在安装 Operator 时,您的集群必须至少有 2 个 worker 节点,至少有 8 个 CPU 和 32 GiB RAM 用于 OpenShift AI。为确保 OpenShift AI 可用,除了最低要求外,还需要额外的集群资源。
- 要在单一节点 OpenShift 上使用 OpenShift AI,该节点必须至少有 32 个 CPU 和 128 GiB RAM。
您的集群配置了可动态置备的默认存储类。
运行
oc get storageclass命令确认配置了默认存储类。如果在名称旁边没有存储类及(默认),请按照 OpenShift Container Platform 文档配置默认存储类: 更改默认存储类。有关动态置备的更多信息,请参阅动态置备。- Open Data Hub 不能安装在集群中。
有关管理 组成 OpenShift 集群的机器的更多信息,请参阅机器管理概述。
为 OpenShift 配置身份提供程序
- Red Hat OpenShift AI 使用与 Red Hat OpenShift Container Platform 相同的身份验证系统。有关 配置身份提供程序的更多信息,请参阅了解身份提供程序配置。
-
使用具有
cluster-admin角色的用户访问集群;不允许kubeadmin用户。
互联网访问
除了互联网访问,必须在安装 OpenShift AI Self-managed 期间访问以下域:
-
cdn.redhat.com -
subscription.rhn.redhat.com -
registry.access.redhat.com -
registry.redhat.io -
quay.io
-
对于基于 CUDA 的镜像,必须访问以下域:
-
ngc.download.nvidia.cn -
developer.download.nvidia.com
-
创建自定义命名空间
-
默认情况下,OpenShift AI 使用预定义的命名空间,但您可以根据需要为 operator 和
DSCI.applicationNamespace定义自定义命名空间。OpenShift AI 创建的命名空间通常在其名称中包含openshift或redhat。不要重命名这些系统命名空间,因为 OpenShift AI 需要它们才能正常工作。如果使用自定义命名空间,在安装 OpenShift AI Operator 之前,您必须创建并根据需要标记它们。
数据科学项目准备
- Data Science pipelines 2.0 包含 Argo 工作流的安装。如果一个现有 Argo 工作流安装没有在集群中的数据科学管道安装,则安装 OpenShift AI 后将禁用数据科学管道。在安装 OpenShift AI 前,请确保集群没有由数据科学管道安装的 Argo 工作流,或删除 Argo 工作流的独立安装。
- 您可以将管道工件存储在 S3 兼容对象存储桶中,以便不使用本地存储。要做到这一点,您必须首先对存储帐户上的 S3 存储桶配置写入访问权限。
安装 KServe 依赖项
- 要支持 KServe 组件(由 single-model 服务平台用来为大型模型提供服务),还必须为 Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator 并执行额外的配置。如需更多信息 ,请参阅关于单模式服务平台。
-
如果要为 single-model 服务平台添加授权供应商,您必须安装
Red Hat - AuthorinoOperator。如需更多信息,请参阅为 单模式服务平台添加授权供应商。
安装模型 registry 依赖项(技术预览功能)
- 要使用模型 registry 组件,还必须为 Red Hat Authorino、Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator。有关配置模型 registry 组件的更多信息,请参阅配置模型 registry 组件。
访问对象存储
- OpenShift AI 组件需要或可以使用 S3 兼容对象存储,如 AWS S3、MinIO、Ceph 或 IBM Cloud Storage。对象存储是一种数据存储机制,允许用户作为对象或文件访问其数据。S3 API 是基于 HTTP 访问对象存储服务的可识别标准。
以下组件需要对象存储:
- 单一或多模式服务平台,以部署存储模型。请参阅 在单模式服务平台上部署 模型或使用多型号服务平台部署模型。
- 数据科学管道、存储工件、日志和中间结果。请参阅配置管道服务器和 关于管道日志。
以下组件可以使用对象存储:
- 工作台,用于访问大型数据集。请参阅在数据科学项目中添加连接。
- 分布式工作负载,用于从和推送结果中提取输入数据。请参阅从数据科学管道运行分布式数据科学工作负载。
- 管道中执行的代码。例如,要将生成的模型存储在对象存储中。请参阅 Jupyterlab 中的管道概述。