2.2. 在单模型服务平台上部署模型
当您启用了单模式服务平台后,您可以启用预安装或自定义模型运行时,并在平台上部署模型。
您可以使用预安装的模型服务运行时启动服务模型,而无需自行修改或定义运行时。有关添加自定义运行时的帮助,请参阅为单模型服务平台添加自定义模型运行时。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
- 已安装 KServe。
- 您已启用了 single-model 服务平台。
- (仅限高级部署)要为部署的模型启用令牌身份验证和外部模型路由,您已添加了 Authorino 作为授权提供程序。如需更多信息,请参阅为 单模式服务平台添加授权供应商。
- 您已创建了数据科学项目。
- 您可以访问 S3 兼容对象存储。
- 对于您要部署的模型,您知道 S3 兼容对象存储桶或开放容器项目(OCI)容器中的关联 URI。
- 要使用 Caikit-TGIS 运行时,您需要将模型转换为 Caikit 格式。例如,请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式。
- 如果要将图形处理单元(GPU)与模型服务器搭配使用,在 OpenShift AI 中启用了 GPU 支持。如果使用 NVIDIA GPU,请参阅启用 NVIDIA GPU。如果使用 AMD GPU,请参阅 AMD GPU 集成。
- 要使用 vLLM 运行时,已在 OpenShift AI 中启用 GPU 支持,并在集群中安装并配置了 Node Feature Discovery Operator。如需更多信息,请参阅安装 Node Feature Discovery Operator 和 启用 NVIDIA GPU。
- 要将 vLLM Intel Gaudi Accelerator ServingRuntime 用于 KServe 运行时,您可以在 OpenShift AI 中启用对混合处理单元(HPU)的支持。这包括安装 Intel Gaudi Base Operator 和配置硬件配置集。如需更多信息,请参阅 AMD 文档中的 Intel Gaudi Base Operator OpenShift 安装 和 使用硬件配置集。
要将 vLLM AMD GPU ServingRuntime 用于 KServe 运行时,您可以在 OpenShift AI 中启用了对 AMD 图形处理单元(GPU)的支持。这包括安装 AMD GPU operator 和配置硬件配置集。如需更多信息,请参阅在 OpenShift 上部署 AMD GPU Operator 以及使用硬件配置集。
注意在 OpenShift AI 中,红帽支持 NVIDIA GPU、Intel Gaudi 和 AMD GPU 加速器用于模型服务。
部署 RHEL AI 模型:
- 您已为 KServe 运行时启用了 vLLM NVIDIA GPU ServingRuntime。
- 您已从红帽容器注册中心下载了模型,并将其上传到 S3 兼容对象存储。
流程
在左侧菜单中,单击 Data Science projects。
Data Science 项目页将打开。
点击您要在其中部署模型的项目的名称。
此时会打开项目详情页面。
- 点 Models 选项卡。
执行以下操作之一:
- 如果您看到 Single-model 服务平台 标题,请点击 Deploy model on the 标题。
- 如果没有看到任何标题,请点击 Deploy model 按钮。
此时会打开 Deploy model 对话框。
- 在 Model deployment name 字段中输入您要部署的模型的唯一名称。
- 在 Serving runtime 字段中,选择一个已启用的运行时。如果存在项目范围内的运行时,Serving 运行时 列表包含子标题,以区分全局运行时和项目范围内的运行时。
- 在 Model 框架(名称 - version) 列表中选择一个值。
- 从 Deployment 模式 列表中,选择 standard 或 advanced。如需有关部署模式的更多信息,请参阅关于 KServe 部署模式。
- 在要部署的模型服务器副本的 Number of model server replicas 中,指定一个值。
只有在您创建了硬件配置集时,以下选项才可用:
从 Hardware profile 列表中,选择一个硬件配置文件。如果存在项目范围内的硬件配置文件,则 Hardware profile 列表包含子标题,以区分全局硬件配置文件和项目范围内的硬件配置文件。
重要默认情况下,硬件配置集在仪表板导航菜单和用户界面中隐藏,而加速器配置集保持可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。如果启用了硬件配置文件,则会显示 Hardware 配置集 列表,而不是 加速器配置集列表。要在仪表板导航菜单中显示 Settings
Hardware profiles 选项,以及与硬件配置集关联的用户界面组件,请在 OpenShift 中的 OdhDashboardConfig自定义资源(CR)中将disableHardwareProfiles值设置为false。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。- 可选更改这些默认值,请点 Customize resource requests and limit,并输入新的最小值(request)和最大值(limit)值。硬件配置集指定分配给容器的 CPU 数量和内存量,为两者设置保证最小值(request)和最大值(limit)。
- 可选:在 Model route 部分中,选择 Make deployed model available via an external route 复选框,使部署的模型可供外部客户端使用。
要求对部署的模型对令牌身份验证进行推测请求,请执行以下操作:
- 选择 Require token authentication。
- 在 Service account name 字段中,输入要为其生成令牌的服务帐户名称。
- 要添加额外服务帐户,请点 Add a service account 并输入另一个服务帐户名称。
要指定模型的位置,请执行以下操作之一:
使用现有连接
- 选择现有连接。
从 Name 列表中,选择一个您之前定义的连接。
对于 S3 兼容对象存储 :在 Path 字段中输入指定数据源中包含模型的文件夹路径。
重要OpenVINO Model Server 运行时对指定模型路径有具体要求。如需更多信息,请参阅 OpenShift AI 发行注记中的已知问题 RHOAIENG-3025。
对于 Open Container Image 连接 :在 OCI 存储位置 字段中,输入模型所在的模型 URI。
注意如果您使用现有 S3、URI 或 OCI 数据连接部署注册的模型版本,可能会自动填充一些连接详情。这取决于数据连接的类型以及数据科学项目中可用的匹配连接数量。例如,如果只有一个匹配的连接,则路径、URI、端点、模型 URI、存储桶和区域等字段可能会自动填充。匹配连接将标记为 建议。
使用新连接
要定义模型可访问的新连接,请选择 New connection。
在 Add connection modal 中,选择 Connection type。与 OCI 兼容的 registry、S3 兼容对象存储和 URI 选项是预安装的连接类型。如果您的 OpenShift AI 管理员添加了其他选项,则可能会使用其他选项。
此时会打开 Add connection 表单,其中包含特定于您选择的连接类型的字段。
填写连接详情字段。
重要如果您的连接类型是 S3 兼容对象存储,您必须提供包含您的数据文件的文件夹路径。OpenVINO Model Server 运行时对指定模型路径有具体要求。如需更多信息,请参阅 OpenShift AI 发行注记中的已知问题 RHOAIENG-3025。
(可选)在 配置参数 部分中自定义运行时参数:
- 修改附加服务 运行时参数中的值,以定义部署模型的行为方式。
修改 附加环境变量中的值,以在模型环境中定义变量。
Configuration parameters 部分显示预定义的服务运行时参数(若有可用)。
注意不要修改端口或模型服务运行时参数,因为它们需要设置特定的值。覆盖这些参数可能会导致部署失败。
- 点 Deploy。
验证
- 确认部署的模型显示在项目的 Models 选项卡中,并在仪表板的 Model deployments 页面中显示 Status 列中带有复选标记。