第 3 章 在断开连接的环境中部署 OpenShift AI
请阅读本节,了解如何在断开连接的环境中为数据科学家部署 Red Hat OpenShift AI 作为开发和测试环境环境。断开连接的集群位于受限网络中,通常在防火墙后面。在这种情况下,集群无法访问红帽提供的 OperatorHub 源所在的远程 registry。相反,Red Hat OpenShift AI Operator 可以使用私有 registry 镜像到断开连接的环境中。
在断开连接的环境中安装 OpenShift AI 涉及以下高级别任务:
- 确认 OpenShift 集群满足所有要求。请参阅 OpenShift AI Self-Managed 的要求。
- 为 OpenShift 添加管理用户。请参阅在 OpenShift 中添加管理用户。
- 将镜像镜像(mirror)到私有 registry。对于 断开连接的安装,请参阅将镜像镜像到私有 registry。
- 安装 Red Hat OpenShift AI Operator。请参阅安装 Red Hat OpenShift AI Operator。
- 安装 OpenShift AI 组件。请参阅 安装和管理 Red Hat OpenShift AI 组件。
- 配置用户和管理员组,为用户提供 OpenShift AI 的访问权限。请参阅 将用户添加到 OpenShift AI 用户组。
- 为您的用户提供部署 OpenShift AI 的 OpenShift 集群的 URL。请参阅 访问 OpenShift AI 仪表板。
3.1. OpenShift AI 自我管理的要求 复制链接链接已复制到粘贴板!
要在断开连接的环境中在 Red Hat OpenShift 集群中安装 Red Hat OpenShift AI,您必须满足以下要求:
产品订阅
您必须有 Red Hat OpenShift AI Self-Managed 订阅。
请联系您的红帽客户经理购买新的订阅。如果您还没有帐户管理器,请在 https://www.redhat.com/en/contact 中填写表单以请求一个。
集群管理员对 OpenShift 集群的访问权限
- 您必须有一个具有集群管理员访问权限的 OpenShift 集群。按照 OpenShift Container Platform 文档使用现有集群或创建集群: 在断开连接的环境中安装集群。
- 安装集群后,按照 OpenShift Container Platform 文档配置 Cluster Samples Operator: 为受限集群配置 Samples Operator。
- 在安装 Operator 时,您的集群必须至少有 2 个 worker 节点,至少有 8 个 CPU 和 32 GiB RAM 用于 OpenShift AI。为确保 OpenShift AI 可用,除了最低要求外,还需要额外的集群资源。
- 要在单一节点 OpenShift 上使用 OpenShift AI,该节点必须至少有 32 个 CPU 和 128 GiB RAM。
您的集群配置了可动态置备的默认存储类。
运行
oc get storageclass命令确认配置了默认存储类。如果在名称旁边没有存储类及(默认),请按照 OpenShift Container Platform 文档配置默认存储类: 更改默认存储类。有关动态置备的更多信息,请参阅动态置备。- Open Data Hub 不能安装在集群中。
有关管理 组成 OpenShift 集群的机器的更多信息,请参阅机器管理概述。
为 OpenShift 配置身份提供程序
- Red Hat OpenShift AI 使用与 Red Hat OpenShift Container Platform 相同的身份验证系统。有关 配置身份提供程序的更多信息,请参阅了解身份提供程序配置。
-
使用具有
cluster-admin角色的用户访问集群;不允许kubeadmin用户。
镜像机器上的互联网访问
除了互联网访问外,还必须访问以下域来镜像 OpenShift AI Self-Managed 安装所需的镜像:
-
cdn.redhat.com -
subscription.rhn.redhat.com -
registry.access.redhat.com -
registry.redhat.io -
quay.io
-
对于基于 CUDA 的镜像,必须访问以下域:
-
ngc.download.nvidia.cn -
developer.download.nvidia.com
-
数据科学项目准备
- Data Science pipelines 2.0 包含 Argo 工作流的安装。如果一个现有 Argo 工作流安装没有在集群中的数据科学管道安装,则安装 OpenShift AI 后将禁用数据科学管道。在安装 OpenShift AI 前,请确保集群没有由数据科学管道安装的 Argo 工作流,或删除 Argo 工作流的独立安装。
- 在断开连接的环境中执行管道前,您必须将镜像上传到私有 registry。如需更多信息,请参阅 镜像以在受限环境中运行管道。
- 您可以将管道工件存储在 S3 兼容对象存储桶中,以便不使用本地存储。要做到这一点,您必须首先对存储帐户上的 S3 存储桶配置写入访问权限。
安装 KServe 依赖项
- 要支持 KServe 组件(由 single-model 服务平台用来为大型模型提供服务),还必须为 Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator 并执行额外的配置。如需更多信息 ,请参阅关于单模式服务平台。
-
如果要为 single-model 服务平台添加授权供应商,您必须安装
Red Hat - AuthorinoOperator。如需更多信息,请参阅为 单模式服务平台添加授权供应商。
安装模型 registry 依赖项(技术预览功能)
- 要使用模型 registry 组件,还必须为 Red Hat Authorino、Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator。有关配置模型 registry 组件的更多信息,请参阅配置模型 registry 组件。
访问对象存储
- OpenShift AI 组件需要或可以使用 S3 兼容对象存储,如 AWS S3、MinIO、Ceph 或 IBM Cloud Storage。对象存储是一种数据存储机制,允许用户作为对象或文件访问其数据。S3 API 是基于 HTTP 访问对象存储服务的可识别标准。
- 对象存储必须可以被 OpenShift 集群访问。在与集群相同的断开连接的网络中部署对象存储。
以下组件需要对象存储:
- 单一或多模式服务平台,以部署存储模型。请参阅 在单模式服务平台上部署 模型或使用多型号服务平台部署模型。
- 数据科学管道、存储工件、日志和中间结果。请参阅配置管道服务器和 关于管道日志。
以下组件可以使用对象存储:
- 工作台,用于访问大型数据集。请参阅在数据科学项目中添加连接。
- 分布式工作负载,用于从和推送结果中提取输入数据。请参阅从数据科学管道运行分布式数据科学工作负载。
- 管道中执行的代码。例如,要将生成的模型存储在对象存储中。请参阅 Jupyterlab 中的管道概述。