第 3 章提供大型模型

PDF

为了部署大型模型，如大型语言模型(LLMs)，Red Hat OpenShift AI 包括一个 单一模型服务平台，它基于 KServe 组件。由于每个模型都是从其自己的模型服务器部署的，因此单一模型服务平台可帮助您部署、监控、扩展和维护需要增加资源的大型模型。

3.1. 关于单模式服务平台

为了部署大型模型，如大型语言模型(LLMs)，OpenShift AI 包含一个基于 KServe 组件的单模型服务平台。由于每个模型都部署在自己的模型服务器上，因此单一模式服务平台可帮助您部署、监控、扩展和维护需要增加资源的大型模型。

3.1.1. 组件

KServe ：一种 Kubernetes 自定义资源定义(CRD)，编配所有类型的模型的模型服务。KServe 包括实现给定模型服务器的加载的模型运行时。KServe 还处理部署对象、存储访问和网络设置的生命周期。
Red Hat OpenShift Serverless ：一个云原生开发模型，允许无服务器部署模型。OpenShift Serverless 基于开源 Knative 项目。
Red Hat OpenShift Service Mesh ：一个服务网格网络层，用于管理流量流并强制实施访问策略。OpenShift Service Mesh 基于开源 Istio 项目。
注意
目前，只支持 OpenShift Service Mesh v2。如需更多信息，请参阅支持的配置。

3.1.2. 安装选项

要安装 single-model 服务平台，您可以使用以下选项：

自动安装

如果您还没有在 OpenShift 集群上创建 ServiceMeshControlPlane 或 KNativeServing 资源，您可以将 Red Hat OpenShift AI Operator 配置为安装 KServe 及其依赖项。

有关自动安装的更多信息，请参阅配置 KServe 的自动安装。

手动安装

如果您已在 OpenShift 集群上创建了 ServiceMeshControlPlane 或 KNativeServing 资源，则无法 配置 Red Hat OpenShift AI Operator 来安装 KServe 及其依赖项。在这种情况下，您必须手动安装 KServe。

有关手动安装的更多信息，请参阅手动安装 KServe。

3.1.3. model-serving 运行时

安装 KServe 后，您可以使用 OpenShift AI 仪表板使用预安装或自定义模型运行时部署模型。

OpenShift AI 为 KServe 包括以下预安装的运行时：

TGIS Standalone ServingRuntime for KServe: 为启用 TGI 的模型提供服务的运行时
Caikit-TGIS ServingRuntime for KServe: 以 Caikit 格式提供模型的复合运行时
OpenVINO Model Server ：为为 Intel 架构优化的服务模型的可扩展、高性能运行时
vLLM ServingRuntime for KServe: 一个高吞吐量和内存效率的推测，为大型语言模型提供运行时

注意

文本 Generation Inference Server (TGIS) 基于 Hugging Face TGI 的早期分叉。红帽将继续开发独立 TGIS 运行时来支持 TGI 模型。如果模型无法在 OpenShift AI 的当前版本中工作，则未来版本可能会添加支持。同时，您还可以添加自己的自定义运行时来支持 TGI 模型。如需更多信息，请参阅为单模型服务平台添加自定义模型运行时。
复合 Caikit-TGIS 运行时基于 Caikit 和文本 Generation Inference Server (TGIS)。要使用此运行时，您必须将模型转换为 Caikit 格式。例如，请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式。

3.1.4. 授权

您可以将 Authorino 添加为 single-model 服务平台的授权供应商。通过添加授权供应商，您可以为平台上部署的模型启用令牌授权，这样可确保只有授权方能够对模型发出推测请求。

要将 Authorino 添加为 single-model 服务平台上的授权供应商，您可以使用以下选项：

如果集群中可以自动安装 single-model 服务平台，您可以包括 Authorino 作为自动安装过程的一部分。
如果需要手动安装单型号服务平台，还必须手动配置 Authorino。

有关为单模式服务平台选择安装选项的指导，请参阅安装选项。???

3.1.5. 监控

您可以为单模型服务平台配置监控，并使用 Prometheus 提取每个预安装的模型运行时的指标。

第 3 章提供大型模型

3.1. 关于单模式服务平台

3.1.1. 组件

3.1.2. 安装选项

3.1.3. model-serving 运行时

3.1.4. 授权

3.1.5. 监控

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

第 3 章 提供大型模型

3.1. 关于单模式服务平台

3.1.1. 组件

3.1.2. 安装选项

3.1.3. model-serving 运行时

3.1.4. 授权

3.1.5. 监控

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

第 3 章提供大型模型