3.20. 关于 NVIDIA NIM 模型服务平台
您可以在 NVIDIA NIM 模型服务平台上使用 NVIDIA NIM inference 服务部署模型。
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,是设计用于安全可靠的部署高性能 AI 模型影响云、数据中心和工作站的微服务。
3.20.1. 启用 NVIDIA NIM 模型服务平台 复制链接链接已复制到粘贴板!
作为管理员,您可以使用 Red Hat OpenShift AI 仪表板启用 NVIDIA NIM 模型服务平台。
如果您之前在 OpenShift AI 2.14 或 2.15 中启用了 NVIDIA NIM 模型服务平台,然后升级到更新的版本,重新输入 NVIDIA NGC API 密钥以重新启用 NVIDIA NIM 模型服务平台。
先决条件
- 您已以管理员身份登录到 Red Hat OpenShift AI。
- 您已启用了 single-model 服务平台。您不需要启用预安装的运行时。有关启用单模式服务平台的更多信息,请参阅启用单模式服务平台。
以下 OpenShift AI 仪表板配置已启用。
disableNIMModelServing: false
disableNIMModelServing: false
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如需更多信息,请参阅 Dashboard 配置选项。
- 您已在 OpenShift AI 中启用了 GPU 支持。如需更多信息,请参阅启用 NVIDIA GPU。
- 您有一个 NVIDIA Cloud Account (NCA),并可以访问 NVIDIA GPU Cloud (NGC)门户。如需更多信息,请参阅 NVIDIA GPU Cloud 用户指南。
- 您的 NCA 帐户与 NVIDIA AI Enterprise Viewer 角色关联。
- 您已在 NGC 门户中生成了 NGC API 密钥。如需更多信息,请参阅 NGC API 密钥。
流程
- 登录到 OpenShift AI。
-
在 OpenShift AI 仪表板的左侧菜单中,点击 Applications
Explore。 - 在 Explore 页面中,找到 NVIDIA NIM 标题。
- 在应用程序标题上点 Enable。
- 输入 NGC API 密钥,然后单击 Submit。
验证
- 您启用的 NVIDIA NIM 应用程序会出现在 Enabled 页面中。
3.20.2. 在 NVIDIA NIM 模型服务平台上部署模型 复制链接链接已复制到粘贴板!
当您启用了 NVIDIA NIM 模型服务平台 时,您可以开始在平台上部署 NVIDIA 优化模型。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如
rhoai-users
或rhoai-admins
)的一部分。 - 您已启用了 NVIDIA NIM 模型服务平台。
- 您已创建了数据科学项目。
- 您已在 OpenShift AI 中启用了图形处理单元(GPU)的支持。这包括安装 Node Feature Discovery operator 和 NVIDIA GPU Operator。如需更多信息,请参阅安装 Node Feature Discovery operator 和 启用 NVIDIA GPU。
流程
在左侧菜单中,单击 Data Science Projects。
Data Science Projects 页面将打开。
点击您要在其中部署模型的项目的名称。
此时会打开项目详情页面。
- 点 Models 选项卡。
在 Models 部分中,执行以下操作之一:
- 在 NVIDIA NIM 模型服务平台 标题上,点标题上的 Select NVIDIA NIM,然后点 Deploy model。
- 如果您之前选择了 NVIDIA NIM 模型服务类型,则 Models 页面会显示右上角的 NVIDIA 模型 服务以及 Deploy model 按钮。要继续,请单击 Deploy model。
此时会打开 Deploy model 对话框。
配置部署模型的属性,如下所示:
- 在 Model deployment name 字段中输入部署的唯一名称。
- 从 NVIDIA NIM 列表中,选择您要部署的 NVIDIA NIM 模型。如需更多信息,请参阅支持的模型
- 在 NVIDIA NIM 存储大小字段中,指定将创建用于存储 NVIDIA NIM 模型的集群存储 实例的大小。
- 在要部署的模型服务器副本的 Number of model server replicas 中,指定一个值。
- 在 Model server size 列表中选择一个值。
从 Accelerator 列表中,选择一个加速器。
此时会出现 加速器字段的数量。
- 在 Number of accelerators 字段中,指定要使用的加速器数。默认值为 1。
- 点 Deploy。
验证
- 确认部署的模型显示在项目的 Models 选项卡中,并在仪表板的 Model Serving 页面中显示 Status 列中带有复选标记。