2.2. 在单模型服务平台上部署模型


您可以使用 Deploy a model 向导在 single-model serving 平台上部署 generateive AI (GenAI)或 Predictive AI 模型。向导允许您配置模型,包括指定其位置和类型、选择服务运行时、分配硬件配置集和设置外部路由和令牌身份验证等高级配置。

要成功部署模型,您必须满足以下先决条件:

一般先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 已安装 KServe 并启用了 single-model 服务平台。
  • 您已启用了预安装或自定义模型运行时。
  • 您已创建了一个项目。
  • 您可以访问 S3 兼容对象存储、基于 URI 的存储库、符合 OCI 的 registry 或持久性卷声明(PVC),并添加了与项目的连接。有关添加连接的更多信息,请参阅 添加与项目的连接
  • 如果要将图形处理单元(GPU)与模型服务器搭配使用,在 OpenShift AI 中启用了 GPU 支持。如果使用 NVIDIA GPU,请参阅启用 NVIDIA GPU。如果使用 AMD GPU,请参阅 AMD GPU 集成

特定于运行时的先决条件

满足您要使用的特定运行时的要求。

重要

目前,在 x86 上支持 IBM Spyre AI Accelerators 当前在 Red Hat OpenShift AI 3.0 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

  • 要将 vLLM Spyre AI Accelerator ServingRuntime 用于 x86 上的 KServe 运行时,已安装 Spyre Operator 并配置了硬件配置集。如需更多信息,请参阅 Spyre operator 镜像 以及使用硬件配置集

    • 用于 KServe 的 vLLM Spyre s390x ServingRuntime
  • 要将 vLLM Spyre s390x ServingRuntime 用于 IBM Z 上的 KServe 运行时,已安装 Spyre Operator 并配置了硬件配置集。如需更多信息,请参阅 Spyre operator 镜像 以及使用硬件配置集

流程

  1. 在左侧菜单中,单击 Projects
  2. 点击您要在其中部署模型的项目的名称。

    此时会打开项目详情页面。

  3. 单击 Deployments 选项卡。
  4. Deploy model 按钮。

    此时会打开 Deploy a model 向导。

  5. Model details 部分中,提供有关模型的信息:

    1. Model location 列表中,指定您的模型存储并完成连接详情字段。

      注意
      • OCI 兼容的 registryS3 兼容对象存储和 URI 选项是预安装的连接类型。如果您的 OpenShift AI 管理员添加了其他选项,则可能会使用其他选项。
      • 如果您将模型文件上传到持久性卷声明(PVC)中,且 PVC 附加到工作台中,Cluster storage 选项会在 Model location 列表中可用。使用这个选项选择 PVC 并指定模型文件的路径。
    2. Model type 列表中,选择您要部署的模型类型,预测 或生成 AI 模型
    3. Next
  6. Model deployment 部分中,配置部署:

    1. Model deployment name 字段中输入模型部署的唯一名称。
    2. Description 字段中,输入部署的描述。
    3. Hardware profile 列表中,选择一个硬件配置文件。
    4. 可选: 要修改默认资源分配,请点 Customize resource requests and limits,并为 CPU 和 Memory 请求和限值输入新值。
    5. Serving runtime 字段中,选择一个已启用的运行时。

      注意

      如果存在项目范围内的运行时,Serving 运行时 列表包含子标题,以区分全局运行时和项目范围内的运行时。

    6. 可选:如果您选择了 预测模型 类型,请从 Model 框架(名称 - version)列表中选择一个 框架。对于生成 AI 模型,该字段为隐藏。
    7. 在要部署的模型服务器副本的 Number of model server replicas 中,指定一个值。
    8. Next
  7. Advanced settings 部分中,配置高级选项:

    1. 可选:(仅限Generative AI 模型)如果您要将模型的端点添加到 AI asset 端点页面,请选择 Add as AI asset endpoint 复选框。

      1. Use case 字段中,输入您的模型执行的任务类型,如 chat、multimodal 或自然语言处理。

        注意

        您必须将您的模型添加为 AI 资产端点,以便在 GenAI playground 中测试您的模型。

    2. 可选: 选择 Model access 复选框,使您的模型部署可以通过外部路由访问。
    3. 可选: 要要求令牌身份验证以对部署的模型推测请求,请选择 Require token authentication
    4. Service account name 字段中,输入要为其生成令牌的服务帐户名称。
    5. 要添加额外服务帐户,请点 Add a service account 并输入另一个服务帐户名称。
    6. 可选:在 Configuration parameters 部分中:

      1. 选择 Add custom runtime 参数,然后在文本字段中输入参数。
      2. 选择 Add custom runtime 环境变量 复选框,然后点 Add variable 在文本字段中输入自定义变量。
  8. Deploy

验证

  • 确认部署的模型显示在项目的 Deployments 选项卡中,并在仪表板的 Deployments 页面中显示 Status 列中带有复选标记。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat