1.6. 在 MicroShift 上提供 AI 模型
您可以通过使用 ServingRuntime
和 InferenceService
自定义资源(CR)配置模型,在 MicroShift 中提供 Red Hat OpenShift AI Self-Managed single-model 服务平台的模型。
- MicroShift 中 AI 模型的模型保留运行时
- 模型运行时是部署和管理 AI 模型的环境,提供与指定的模型服务器和它支持的模型框架的集成。创建模型运行时意味着配置为 AI 模型选择正确模型格式的对象,并提供查询,以及其他特定于您的部署的详细功能。
ServingRuntime
自定义资源-
ServingRuntime
CR 是一个 YAML 文件,它为 pod 定义模板,可动态加载和卸载 AI 模型格式,并公开服务端点,以通过 API 查询模型。每个ServingRuntime
CR 都包含运行 AI 模型所需的信息,包括运行时的容器镜像以及模型格式列表。模型服务运行时的其他配置设置可使用容器规格中定义的环境变量来设置。 InferenceService
自定义资源-
InferenceService
CR 是一个 YAML 文件,它创建服务器或推测服务来处理 inference 查询,将它们传递给模型,然后返回 inference 输出。在 MicroShift 中,输出在 CLI 中返回。这个 inference 服务配置文件也可以包括很多其他选项,如指定硬件加速器。
重要
作为单节点 Kubernetes 发行版本,MicroShift 不支持多型号部署。您必须使用单模式服务平台。在每个 MicroShift 部署中,您可以使用一个 AI 模型,但可能使用多个模型运行时。
- 用于配置模型运行时的工作流
- 选择支持 AI 模型格式的 model-serving 运行时。
-
在工作负载命名空间中创建
ServingRuntime
CR。 -
如果 MicroShift 集群已在运行,您可以将所需的
ServingRuntime
CR 导出至文件并编辑该文件。 -
如果 MicroShift 集群没有运行,或者要手动准备清单,您可以使用磁盘上的原始定义,该定义是
microshift-ai-model-serving
RPM 的一部分。 -
在工作负载命名空间中创建
InferenceService
CR。
1.6.1. 支持的 Red Hat OpenShift AI Self-Managed 自定义资源定义 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
支持以下 Red Hat OpenShift AI Self-Managed 自定义资源定义(CRD):
-
InferenceServices
-
TrainedModels
-
ServingRuntimes
-
InferenceGraphs
-
ClusterStorageContainers
-
ClusterLocalModels
-
LocalModelNodeGroups
以下 Red Hat OpenShift AI Self-Managed model-serving 运行时是为 MicroShift 部署进行验证:
- vLLM ServingRuntime for KServe
OpenVINO Model Server
重要OpenVINO 模型服务器不支持 IPv6 网络协议。在使用 检查每个模型服务器以确保它支持网络配置之前。
以下运行时可用于使用 MicroShift 进行开发目的:
- Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe
- Caikit Standalone ServingRuntime for KServe
- 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe
- vLLM ServingRuntime,带有对 KServe 的 Gaudi 加速器的支持
- 用于 KServe 的 vLLM ROCm ServingRuntime
- 创建和测试的自定义运行时