第 3 章 提供大型模型
为了部署大型模型,如大型语言模型(LLMs),Red Hat OpenShift AI 包括一个 单一模型服务平台,它基于 KServe 组件。由于每个模型都是从其自己的模型服务器部署的,因此单一模型服务平台可帮助您部署、监控、扩展和维护需要增加资源的大型模型。
3.1. 关于单模式服务平台
为了部署大型模型,如大型语言模型(LLMs),OpenShift AI 包含一个基于 KServe 组件的单模型服务平台。由于每个模型都部署在自己的模型服务器上,因此单一模式服务平台可帮助您部署、监控、扩展和维护需要增加资源的大型模型。
3.1.1. 组件
- KServe :一种 Kubernetes 自定义资源定义(CRD),编配所有类型的模型的模型服务。KServe 包括实现给定模型服务器的加载的模型运行时。KServe 还处理部署对象、存储访问和网络设置的生命周期。
- Red Hat OpenShift Serverless :一个云原生开发模型,允许无服务器部署模型。OpenShift Serverless 基于开源 Knative 项目。
Red Hat OpenShift Service Mesh :一个服务网格网络层,用于管理流量流并强制实施访问策略。OpenShift Service Mesh 基于开源 Istio 项目。
注意目前,只支持 OpenShift Service Mesh v2。如需更多信息,请参阅 支持的配置。
3.1.2. 安装选项
要安装 single-model 服务平台,您可以使用以下选项:
- 自动安装
如果您还没有在 OpenShift 集群上创建
ServiceMeshControlPlane
或KNativeServing
资源,您可以将 Red Hat OpenShift AI Operator 配置为安装 KServe 及其依赖项。有关自动安装的更多信息,请参阅配置 KServe 的自动安装。
- 手动安装
如果您已在 OpenShift 集群上创建了
ServiceMeshControlPlane
或KNativeServing
资源,则无法 配置 Red Hat OpenShift AI Operator 来安装 KServe 及其依赖项。在这种情况下,您必须手动安装 KServe。有关手动安装的更多信息,请参阅 手动安装 KServe。
3.1.3. model-serving 运行时
安装 KServe 后,您可以使用 OpenShift AI 仪表板使用预安装或自定义模型运行时部署模型。
OpenShift AI 为 KServe 包括以下预安装的运行时:
- TGIS Standalone ServingRuntime for KServe: 为启用 TGI 的模型提供服务的运行时
- Caikit-TGIS ServingRuntime for KServe: 以 Caikit 格式提供模型的复合运行时
- OpenVINO Model Server :为为 Intel 架构优化的服务模型的可扩展、高性能运行时
- vLLM ServingRuntime for KServe: 一个高吞吐量和内存效率的推测,为大型语言模型提供运行时
- 文本 Generation Inference Server (TGIS) 基于 Hugging Face TGI 的早期分叉。红帽将继续开发独立 TGIS 运行时来支持 TGI 模型。如果模型无法在 OpenShift AI 的当前版本中工作,则未来版本可能会添加支持。同时,您还可以添加自己的自定义运行时来支持 TGI 模型。如需更多信息,请参阅为单模型服务平台添加自定义模型运行时。
- 复合 Caikit-TGIS 运行时基于 Caikit 和 文本 Generation Inference Server (TGIS)。要使用此运行时,您必须将模型转换为 Caikit 格式。例如,请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式。
3.1.4. 授权
您可以将 Authorino 添加为 single-model 服务平台的授权供应商。通过添加授权供应商,您可以为平台上部署的模型启用令牌授权,这样可确保只有授权方能够对模型发出推测请求。
要将 Authorino 添加为 single-model 服务平台上的授权供应商,您可以使用以下选项:
- 如果集群中可以自动安装 single-model 服务平台,您可以包括 Authorino 作为自动安装过程的一部分。
- 如果需要手动安装单型号服务平台,还必须手动配置 Authorino。
有关为单模式服务平台选择安装选项的指导,请参阅安装选项。???
3.1.5. 监控
您可以为单模型服务平台配置监控,并使用 Prometheus 提取每个预安装的模型运行时的指标。