2.2. 在单模型服务平台上部署模型
您可以使用 Deploy a model 向导在 single-model serving 平台上部署 generateive AI (GenAI)或 Predictive AI 模型。向导允许您配置模型,包括指定其位置和类型、选择服务运行时、分配硬件配置集和设置外部路由和令牌身份验证等高级配置。
要成功部署模型,您必须满足以下先决条件:
一般先决条件
- 您已登陆到 Red Hat OpenShift AI。
- 已安装 KServe 并启用了 single-model 服务平台。
- 您已启用了预安装或自定义模型运行时。
- 您已创建了一个项目。
- 您可以访问 S3 兼容对象存储、基于 URI 的存储库、符合 OCI 的 registry 或持久性卷声明(PVC),并添加了与项目的连接。有关添加连接的更多信息,请参阅 添加与项目的连接。
- 如果要将图形处理单元(GPU)与模型服务器搭配使用,在 OpenShift AI 中启用了 GPU 支持。如果使用 NVIDIA GPU,请参阅启用 NVIDIA GPU。如果使用 AMD GPU,请参阅 AMD GPU 集成。
特定于运行时的先决条件
满足您要使用的特定运行时的要求。
Caikit-TGIS 运行时
- 要使用 Caikit-TGIS 运行时,您需要将模型转换为 Caikit 格式。例如,请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式。
vLLM NVIDIA GPU ServingRuntime for KServe
- 要将 vLLM NVIDIA GPU ServingRuntime 用于 KServe 运行时,已在 OpenShift AI 中启用了 GPU 支持,并在集群中安装并配置了 Node Feature Discovery Operator。如需更多信息,请参阅安装 Node Feature Discovery Operator 和 启用 NVIDIA GPU。
用于 KServe 的 vLLM CPU ServingRuntime
- 要在 IBM Z 和 IBM Power 上使用 VLLM 运行时,请将 vLLM CPU ServingRuntime 用于 KServe。您不能在 IBM Z 和 IBM Power 构架中使用 GPU 加速器。如需更多信息,请参阅 Red Hat OpenShift Multi Architecture 组件可用性列表。
vLLM Intel Gaudi Accelerator ServingRuntime for KServe
- 要将 vLLM Intel Gaudi Accelerator ServingRuntime 用于 KServe 运行时,您可以在 OpenShift AI 中启用对混合处理单元(HPU)的支持。这包括安装 Intel Gaudi Base Operator 和配置硬件配置集。如需更多信息,请参阅 AMD 文档中的 Intel Gaudi Base Operator OpenShift 安装 和 使用硬件配置集。
vLLM AMD GPU ServingRuntime for KServe
- 要将 vLLM AMD GPU ServingRuntime 用于 KServe 运行时,您可以在 OpenShift AI 中启用了对 AMD 图形处理单元(GPU)的支持。这包括安装 AMD GPU operator 和配置硬件配置集。如需更多信息,请参阅在 OpenShift 上部署 AMD GPU Operator 以及使用硬件配置集。
- vLLM Spyre AI Accelerator ServingRuntime for KServe
目前,在 x86 上支持 IBM Spyre AI Accelerators 当前在 Red Hat OpenShift AI 3.0 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
要将 vLLM Spyre AI Accelerator ServingRuntime 用于 x86 上的 KServe 运行时,已安装 Spyre Operator 并配置了硬件配置集。如需更多信息,请参阅 Spyre operator 镜像 以及使用硬件配置集。
- 用于 KServe 的 vLLM Spyre s390x ServingRuntime
- 要将 vLLM Spyre s390x ServingRuntime 用于 IBM Z 上的 KServe 运行时,已安装 Spyre Operator 并配置了硬件配置集。如需更多信息,请参阅 Spyre operator 镜像 以及使用硬件配置集。
流程
- 在左侧菜单中,单击 Projects。
点击您要在其中部署模型的项目的名称。
此时会打开项目详情页面。
- 单击 Deployments 选项卡。
点 Deploy model 按钮。
此时会打开 Deploy a model 向导。
在 Model details 部分中,提供有关模型的信息:
在 Model location 列表中,指定您的模型存储并完成连接详情字段。
注意- 与 OCI 兼容的 registry、S3 兼容对象存储和 URI 选项是预安装的连接类型。如果您的 OpenShift AI 管理员添加了其他选项,则可能会使用其他选项。
- 如果您将模型文件上传到持久性卷声明(PVC)中,且 PVC 附加到工作台中,Cluster storage 选项会在 Model location 列表中可用。使用这个选项选择 PVC 并指定模型文件的路径。
- 从 Model type 列表中,选择您要部署的模型类型,预测 或生成 AI 模型。
- 点 Next。
在 Model deployment 部分中,配置部署:
- 在 Model deployment name 字段中输入模型部署的唯一名称。
- 在 Description 字段中,输入部署的描述。
- 从 Hardware profile 列表中,选择一个硬件配置文件。
- 可选: 要修改默认资源分配,请点 Customize resource requests and limits,并为 CPU 和 Memory 请求和限值输入新值。
在 Serving runtime 字段中,选择一个已启用的运行时。
注意如果存在项目范围内的运行时,Serving 运行时 列表包含子标题,以区分全局运行时和项目范围内的运行时。
- 可选:如果您选择了 预测模型 类型,请从 Model 框架(名称 - version)列表中选择一个 框架。对于生成 AI 模型,该字段为隐藏。
- 在要部署的模型服务器副本的 Number of model server replicas 中,指定一个值。
- 点 Next。
在 Advanced settings 部分中,配置高级选项:
可选:(仅限Generative AI 模型)如果您要将模型的端点添加到 AI asset 端点页面,请选择 Add as AI asset endpoint 复选框。
在 Use case 字段中,输入您的模型执行的任务类型,如 chat、multimodal 或自然语言处理。
注意您必须将您的模型添加为 AI 资产端点,以便在 GenAI playground 中测试您的模型。
- 可选: 选择 Model access 复选框,使您的模型部署可以通过外部路由访问。
- 可选: 要要求令牌身份验证以对部署的模型推测请求,请选择 Require token authentication。
- 在 Service account name 字段中,输入要为其生成令牌的服务帐户名称。
- 要添加额外服务帐户,请点 Add a service account 并输入另一个服务帐户名称。
可选:在 Configuration parameters 部分中:
- 选择 Add custom runtime 参数,然后在文本字段中输入参数。
- 选择 Add custom runtime 环境变量 复选框,然后点 Add variable 在文本字段中输入自定义变量。
- 点 Deploy。
验证
- 确认部署的模型显示在项目的 Deployments 选项卡中,并在仪表板的 Deployments 页面中显示 Status 列中带有复选标记。