2.7. 支持的模型保留运行时

OpenShift AI 包含多个预安装的模型运行时。您可以使用预安装的模型服务运行时启动服务模型，而无需自行修改或定义运行时。您还可以添加自定义运行时来支持模型。

有关添加自定义运行时的帮助，请参阅为单模型服务平台添加自定义模型运行时。

Expand

表 2.1. model-serving 运行时
Name	描述	导出模型格式
Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1)	Caikit 格式的服务模型的复合运行时	Caikit 文本生成
Caikit Standalone ServingRuntime for KServe (2)	Caikit 嵌入了嵌入任务的 Caikit 服务模型的运行时	Caikit Embeddings
OpenVINO Model Server	为为 Intel 架构优化的服务模型提供可扩展的高性能运行时	PyTorch, TensorFlow, OpenVINO IR, PaddlePaddle, XDPNet, Caffe, Kaldi
[已弃用] 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3)	为支持 TGI 的模型提供服务的运行时	PyTorch Model Formats
vLLM NVIDIA GPU ServingRuntime for KServe	支持 NVIDIA GPU 加速器的大型语言模型的高吞吐量和内存效率推测和服务运行时	支持的模型
vLLM Intel Gaudi Accelerator ServingRuntime for KServe	支持 Intel Gaudi Accelerator 的高吞吐量和内存效率推测和服务运行时	支持的模型
vLLM AMD GPU ServingRuntime for KServe	支持 AMD GPU 加速器的高吞吐量和内存效率推测和服务运行时	支持的模型
用于 KServe 的 vLLM CPU ServingRuntime	支持 IBM Power (ppc64le)和 IBM Z (s390x)的高吞吐量和内存效率推测和服务运行时。	支持的模型

复合 Caikit-TGIS 运行时基于 Caikit 和文本 Generation Inference Server (TGIS)。要使用此运行时，您必须将模型转换为 Caikit 格式。例如，请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式。
Caikit 独立运行时基于 Caikit NLP。要使用此运行时，您必须将模型转换为 Caikit 嵌入格式。例如，请参阅嵌入模块的文本测试。
KServe 文本 Generation Inference Server (TGIS) Standalone ServingRuntime 已弃用。如需更多信息，请参阅 Red Hat OpenShift AI 发行注记。

Expand

表 2.2. 部署要求
Name	默认协议	附加组件协议	模型网格支持	单节点 OpenShift 支持	部署模式
Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe	REST	gRPC	否	是	raw 和 serverless
Caikit Standalone ServingRuntime for KServe	REST	gRPC	否	是	raw 和 serverless
OpenVINO Model Server	REST	None	是	是	raw 和 serverless
[已弃用] 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe	gRPC	None	否	是	raw 和 serverless
vLLM NVIDIA GPU ServingRuntime for KServe	REST	None	否	是	raw 和 serverless
vLLM Intel Gaudi Accelerator ServingRuntime for KServe	REST	None	否	是	raw 和 serverless
vLLM AMD GPU ServingRuntime for KServe	REST	None	否	是	raw 和 serverless
用于 KServe[1] 的 vLLM CPU ServingRuntime	REST	None	否	是	Raw

^[1] 如果您使用 IBM Z 和 IBM Power 架构，则只能在标准部署模式中部署模型。

^[1] 用于 KServe 的 vLLM CPU ServingRuntime

返回顶部

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务，以及可以信赖的内容，帮助红帽用户创新并实现他们的目标。了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情，请参阅红帽博客.

關於紅帽

我们提供强化的解决方案，使企业能够更轻松地跨平台和环境（从核心数据中心到网络边缘）工作。

Theme

© 2025 Red Hat