在断开连接的环境中部署 Red Hat AI Inference Server
使用 OpenShift Container Platform 和断开连接的镜像 registry 在断开连接的环境中安装 Red Hat AI Inference Server。
摘要
前言 复制链接链接已复制到粘贴板!
您可以通过安装 OpenShift Container Platform 并配置在断开连接的环境中的镜像容器镜像 registry,使用 Red Hat AI Inference Server 在没有连接到外部互联网的情况下,使用 Red Hat AI Inference Server 进行大量语言模型。
目前,OpenShift Container Platform 上的断开连接的环境只支持 NVIDIA 加速器。
第 1 章 为断开连接的环境设置镜像 registry 复制链接链接已复制到粘贴板!
要在断开连接的环境中提供容器镜像,您必须在堡垒主机上配置断开连接的镜像 registry。堡垒主机充当您的断开连接的环境和互联网之间的安全网关。然后,您从红帽在线镜像 registry 中镜像镜像,并在断开连接的环境中提供它们。
先决条件
- 部署堡垒主机。
-
在堡垒主机 中安装
oc。 - 在堡垒主机 中安装 Podman。
- 在断开连接的环境中安装 OpenShift Container Platform。
流程
- 在堡垒主机上打开 shell 提示符,并创建断开连接的镜像 registry。
- 配置允许镜像镜像的凭证。
第 2 章 为 AI Inference Server 及其依赖项镜像 Operator 镜像 复制链接链接已复制到粘贴板!
为断开连接的环境创建镜像 registry 后,就可以镜像 AI Inference Server 容器镜像。
先决条件
-
已安装 OpenShift CLI(
oc)。 -
您已以具有
cluster-admin权限的用户身份登录。 - 您已在堡垒主机上安装了镜像 registry
流程
查找与环境匹配的以下镜像版本,并使用
podman拉取镜像:创建包含 NFD Operator、Nvidia GPU Operator 和 AI Inference Server 镜像的镜像设置配置自定义资源(CR)。例如,以下
ImageSetConfigurationCR 包含 AMD CPU 架构和 CUDA 加速器的镜像规格:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 另外,如果您在集群中安装了 NFD 和 NVIDIA GPU Operator,请创建一个只配置 AI Inference Server 的
ImageSetConfigurationCR:apiVersion: mirror.openshift.io/v2alpha1 kind: ImageSetConfiguration mirror: additionalImages: - name: registry.redhat.io/rhaiis/vllm-cuda-rhel9:latest
apiVersion: mirror.openshift.io/v2alpha1 kind: ImageSetConfiguration mirror: additionalImages: - name: registry.redhat.io/rhaiis/vllm-cuda-rhel9:latestCopy to Clipboard Copied! Toggle word wrap Toggle overflow - 在断开连接的环境中镜像设置 的镜像。
- 将断开连接的集群配置为使用更新的镜像集。
安装 Node Feature Discovery Operator 和 NVIDIA GPU Operator,供您使用底层主机 AI 加速器。
先决条件
-
已安装 OpenShift CLI(
oc)。 -
您已以具有
cluster-admin权限的用户身份登录。 - 您已成功在断开连接的环境中镜像所需的 Operator 镜像。
流程
禁用默认的 OperatorHub 源。运行以下命令:
oc patch OperatorHub cluster --type json \ -p '[{"op": "add", "path": "/spec/disableAllDefaultSources", "value": true}]'$ oc patch OperatorHub cluster --type json \ -p '[{"op": "add", "path": "/spec/disableAllDefaultSources", "value": true}]'Copy to Clipboard Copied! Toggle word wrap Toggle overflow 为 Node Feature Discovery Operator 和 NVIDIA GPU Operator 应用
Namespace、OperatorGroup和SubscriptionCR。创建
NamespaceCR:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 创建
OperatorGroupCR:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 创建
SubscriptionCR:Copy to Clipboard Copied! Toggle word wrap Toggle overflow
为 Hugging Face 令牌创建
Secret自定义资源(CR)。使用您在 Hugging Face 中设置的令牌,设置
HF_TOKEN变量。HF_TOKEN=<your_huggingface_token>
$ HF_TOKEN=<your_huggingface_token>Copy to Clipboard Copied! Toggle word wrap Toggle overflow 将集群命名空间设置为与部署 Red Hat AI Inference Server 镜像的位置匹配,例如:
NAMESPACE=rhaiis-namespace
$ NAMESPACE=rhaiis-namespaceCopy to Clipboard Copied! Toggle word wrap Toggle overflow 在集群中创建
SecretCR:oc create secret generic hf-secret --from-literal=HF_TOKEN=$HF_TOKEN -n $NAMESPACE
$ oc create secret generic hf-secret --from-literal=HF_TOKEN=$HF_TOKEN -n $NAMESPACECopy to Clipboard Copied! Toggle word wrap Toggle overflow
验证
运行以下命令验证 Operator 部署是否成功:
oc get pods
$ oc get pods
输出示例
第 4 章 配置持久性存储和推断模型 复制链接链接已复制到粘贴板!
您应该为 AI Inference Server 配置持久性存储,以便在对模型产生影响前存储模型镜像。
配置持久性存储是一个可选但推荐的步骤。
先决条件
- 您已在堡垒主机上安装了镜像 registry。
- 您已在断开连接的集群中安装 Node Feature Discovery Operator 和 NVIDIA GPU Operator。
流程
- 在断开连接的 OpenShift Container Platform 集群中,使用网络文件系统(NFS)配置持久性存储。
创建
Deployment自定义资源(CR)。例如,以下DeploymentCR 使用 AI Inference Server 在 CUDA 加速器上提供 Granite 模型。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 为模型推测创建
ServiceCR。例如:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 可选。创建
RouteCR 以启用对模型的公共访问。例如:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 获取公开路由的 URL:
oc get route granite -n rhaiis-namespace -o jsonpath='{.spec.host}'$ oc get route granite -n rhaiis-namespace -o jsonpath='{.spec.host}'Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
granite-rhaiis-namespace.apps.example.com
granite-rhaiis-namespace.apps.example.comCopy to Clipboard Copied! Toggle word wrap Toggle overflow 运行以下命令来查询模型:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow