1.6. 在 MicroShift 上提供 AI 模型

您可以通过使用 ServingRuntime 和 InferenceService 自定义资源(CR)配置模型，在 MicroShift 中提供 Red Hat OpenShift AI Self-Managed single-model 服务平台的模型。

MicroShift 中 AI 模型的模型保留运行时: 模型运行时是部署和管理 AI 模型的环境，提供与指定的模型服务器和它支持的模型框架的集成。创建模型运行时意味着配置为 AI 模型选择正确模型格式的对象，并提供查询，以及其他特定于您的部署的详细功能。
ServingRuntime 自定义资源: ServingRuntime CR 是一个 YAML 文件，它为 pod 定义模板，可动态加载和卸载 AI 模型格式，并公开服务端点，以通过 API 查询模型。每个 ServingRuntime CR 都包含运行 AI 模型所需的信息，包括运行时的容器镜像以及模型格式列表。模型服务运行时的其他配置设置可使用容器规格中定义的环境变量来设置。
InferenceService 自定义资源: InferenceService CR 是一个 YAML 文件，它创建服务器或推测服务来处理 inference 查询，将它们传递给模型，然后返回 inference 输出。在 MicroShift 中，输出在 CLI 中返回。这个 inference 服务配置文件也可以包括很多其他选项，如指定硬件加速器。

重要

作为单节点 Kubernetes 发行版本，MicroShift 不支持多型号部署。您必须使用单模式服务平台。在每个 MicroShift 部署中，您可以使用一个 AI 模型，但可能使用多个模型运行时。

用于配置模型运行时的工作流

选择支持 AI 模型格式的 model-serving 运行时。
在工作负载命名空间中创建 ServingRuntime CR。
如果 MicroShift 集群已在运行，您可以将所需的 ServingRuntime CR 导出至文件并编辑该文件。
如果 MicroShift 集群没有运行，或者要手动准备清单，您可以使用磁盘上的原始定义，该定义是 microshift-ai-model-serving RPM 的一部分。
在工作负载命名空间中创建 InferenceService CR。

支持以下 Red Hat OpenShift AI Self-Managed 自定义资源定义(CRD)：

以下 Red Hat OpenShift AI Self-Managed model-serving 运行时是为 MicroShift 部署进行验证：

以下运行时可用于使用 MicroShift 进行开发目的：