1.6. 在 MicroShift 上提供 AI 模型


您可以通过使用 ServingRuntimeInferenceService 自定义资源(CR)配置模型,在 MicroShift 中提供 Red Hat OpenShift AI Self-Managed single-model 服务平台的模型。

MicroShift 中 AI 模型的模型保留运行时
模型运行时是部署和管理 AI 模型的环境,提供与指定的模型服务器和它支持的模型框架的集成。创建模型运行时意味着配置为 AI 模型选择正确模型格式的对象,并提供查询,以及其他特定于您的部署的详细功能。
ServingRuntime 自定义资源
ServingRuntime CR 是一个 YAML 文件,它为 pod 定义模板,可动态加载和卸载 AI 模型格式,并公开服务端点,以通过 API 查询模型。每个 ServingRuntime CR 都包含运行 AI 模型所需的信息,包括运行时的容器镜像以及模型格式列表。模型服务运行时的其他配置设置可使用容器规格中定义的环境变量来设置。
InferenceService 自定义资源
InferenceService CR 是一个 YAML 文件,它创建服务器或推测服务来处理 inference 查询,将它们传递给模型,然后返回 inference 输出。在 MicroShift 中,输出在 CLI 中返回。这个 inference 服务配置文件也可以包括很多其他选项,如指定硬件加速器。
重要

作为单节点 Kubernetes 发行版本,MicroShift 不支持多型号部署。您必须使用单模式服务平台。在每个 MicroShift 部署中,您可以使用一个 AI 模型,但可能使用多个模型运行时。

用于配置模型运行时的工作流
  • 选择支持 AI 模型格式的 model-serving 运行时。
  • 在工作负载命名空间中创建 ServingRuntime CR。
  • 如果 MicroShift 集群已在运行,您可以将所需的 ServingRuntime CR 导出至文件并编辑该文件。
  • 如果 MicroShift 集群没有运行,或者要手动准备清单,您可以使用磁盘上的原始定义,该定义是 microshift-ai-model-serving RPM 的一部分。
  • 在工作负载命名空间中创建 InferenceService CR。

支持以下 Red Hat OpenShift AI Self-Managed 自定义资源定义(CRD):

  • InferenceServices
  • TrainedModels
  • ServingRuntimes
  • InferenceGraphs
  • ClusterStorageContainers
  • ClusterLocalModels
  • LocalModelNodeGroups

以下 Red Hat OpenShift AI Self-Managed model-serving 运行时是为 MicroShift 部署进行验证:

  • vLLM ServingRuntime for KServe
  • OpenVINO Model Server

    重要

    OpenVINO 模型服务器不支持 IPv6 网络协议。在使用 检查每个模型服务器以确保它支持网络配置之前。

以下运行时可用于使用 MicroShift 进行开发目的:

  • Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe
  • Caikit Standalone ServingRuntime for KServe
  • 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe
  • vLLM ServingRuntime,带有对 KServe 的 Gaudi 加速器的支持
  • 用于 KServe 的 vLLM ROCm ServingRuntime
  • 创建和测试的自定义运行时
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat