第 3 章提供大型模型

对于部署大型语言模型(LLMs)的大型 模型，Red Hat OpenShift AI 包括一个基于 KServe 组件的模型服务平台。由于每个模型都从自己的模型服务器部署，单一模型服务平台可帮助您部署、监控、扩展和维护需要增加资源的大型模型。

3.1. 关于单一模型服务平台
复制链接

单一模型服务平台由以下组件组成：

KServe: 一个 Kubernetes 自定义资源定义(CRD)，用于编配所有类型的模型服务。它包括模型-serving 运行时，用于实施指定类型的模型服务器加载。KServe 处理部署对象、存储访问和网络设置的生命周期。
Red Hat OpenShift Serverless: 一个云原生开发模型，允许无服务器部署模型。OpenShift Serverless 基于开源 Knative 项目。
Red Hat OpenShift Service Mesh: 服务网格网络层，用于管理流量流并强制实施访问策略。OpenShift Service Mesh 基于开源 Istio 项目。
注意
目前，只支持 OpenShift Service Mesh v2。如需更多信息，请参阅支持的配置。

要安装单一模型服务平台，有以下选项：

自动化安装: 如果您还没有在 OpenShift 集群上创建 ServiceMeshControlPlane 或 KNativeServing 资源，您可以将 Red Hat OpenShift AI Operator 配置为安装 KServe 及其依赖项。
手动安装: 如果您已在 OpenShift 集群上创建了 ServiceMeshControlPlane 或 KNativeServing 资源，则无法 配置 Red Hat OpenShift AI Operator 来安装 KServe 及其依赖项。在这种情况下，您必须手动安装 KServe。

安装 KServe 后，您可以使用 OpenShift AI 仪表板使用预安装或自定义模型运行时部署模型。

OpenShift AI 为 KServe 包含以下预安装的运行时：

注意

文本 Generation Inference Server (TGIS) 基于 Hugging Face TGI 的早期分叉。红帽将继续开发独立 TGIS 运行时来支持 TGI 模型。如果模型无法在 OpenShift AI 的当前版本中工作，则可能会在以后的版本中添加支持。同时，您还可以添加自己的自定义运行时来支持 TGI 模型。如需更多信息，请参阅为单一模型服务平台添加自定义模型运行时。
复合 Caikit-TGIS 运行时基于 Caikit 和 Text Generation Inference Server (TGIS)。要使用这个运行时，您必须将模型转换为 Caikit 格式。例如，请参阅 cai kit-tgis-serving 存储库中的将 Hugging Face Hub 模型转换为 Caikit 格式。

您还可以为单一模型服务平台配置监控，并使用 Prometheus 提取可用的指标。