2.7. 支持的模型保留运行时


OpenShift AI 包含多个预安装的模型运行时。您可以使用预安装的模型服务运行时启动服务模型,而无需自行修改或定义运行时。您还可以添加自定义运行时来支持模型。

有关添加自定义运行时的帮助,请参阅为单模型服务平台添加自定义模型运行时

Expand
表 2.1. model-serving 运行时
Name描述导出模型格式

Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1)

Caikit 格式的服务模型的复合运行时

Caikit 文本生成

Caikit Standalone ServingRuntime for KServe (2)

Caikit 嵌入了嵌入任务的 Caikit 服务模型的运行时

Caikit Embeddings

OpenVINO Model Server

为为 Intel 架构优化的服务模型提供可扩展的高性能运行时

PyTorch, TensorFlow, OpenVINO IR, PaddlePaddle, XDPNet, Caffe, Kaldi

[已弃用] 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3)

为支持 TGI 的模型提供服务的运行时

PyTorch Model Formats

vLLM NVIDIA GPU ServingRuntime for KServe

支持 NVIDIA GPU 加速器的大型语言模型的高吞吐量和内存效率推测和服务运行时

支持的模型

vLLM Intel Gaudi Accelerator ServingRuntime for KServe

支持 Intel Gaudi Accelerator 的高吞吐量和内存效率推测和服务运行时

支持的模型

vLLM AMD GPU ServingRuntime for KServe

支持 AMD GPU 加速器的高吞吐量和内存效率推测和服务运行时

支持的模型

用于 KServe 的 vLLM CPU ServingRuntime

支持 IBM Power (ppc64le)和 IBM Z (s390x)的高吞吐量和内存效率推测和服务运行时。

支持的模型

  1. 复合 Caikit-TGIS 运行时基于 Caikit文本 Generation Inference Server (TGIS)。要使用此运行时,您必须将模型转换为 Caikit 格式。例如,请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式
  2. Caikit 独立运行时基于 Caikit NLP。要使用此运行时,您必须将模型转换为 Caikit 嵌入格式。例如,请参阅 嵌入模块的文本 测试。
  3. KServe 文本 Generation Inference Server (TGIS) Standalone ServingRuntime 已弃用。如需更多信息,请参阅 Red Hat OpenShift AI 发行注记
Expand
表 2.2. 部署要求
Name默认协议附加组件协议模型网格支持单节点 OpenShift 支持部署模式

Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe

REST

gRPC

raw 和 serverless

Caikit Standalone ServingRuntime for KServe

REST

gRPC

raw 和 serverless

OpenVINO Model Server

REST

None

raw 和 serverless

[已弃用] 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe

gRPC

None

raw 和 serverless

vLLM NVIDIA GPU ServingRuntime for KServe

REST

None

raw 和 serverless

vLLM Intel Gaudi Accelerator ServingRuntime for KServe

REST

None

raw 和 serverless

vLLM AMD GPU ServingRuntime for KServe

REST

None

raw 和 serverless

用于 KServe[1] 的 vLLM CPU ServingRuntime

REST

None

Raw

[1] 如果您使用 IBM Z 和 IBM Power 架构,则只能在标准部署模式中部署模型。



[1] 用于 KServe 的 vLLM CPU ServingRuntime
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat