2.7. 支持的模型保留运行时
OpenShift AI 包含多个预安装的模型运行时。您可以使用预安装的模型服务运行时启动服务模型,而无需自行修改或定义运行时。您还可以添加自定义运行时来支持模型。
有关添加自定义运行时的帮助,请参阅为单模型服务平台添加自定义模型运行时。
Name | 描述 | 导出模型格式 |
---|---|---|
Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1) | Caikit 格式的服务模型的复合运行时 | Caikit 文本生成 |
Caikit Standalone ServingRuntime for KServe (2) | Caikit 嵌入了嵌入任务的 Caikit 服务模型的运行时 | Caikit Embeddings |
OpenVINO Model Server | 为为 Intel 架构优化的服务模型提供可扩展的高性能运行时 | PyTorch, TensorFlow, OpenVINO IR, PaddlePaddle, XDPNet, Caffe, Kaldi |
[已弃用] 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3) | 为支持 TGI 的模型提供服务的运行时 | PyTorch Model Formats |
vLLM NVIDIA GPU ServingRuntime for KServe | 支持 NVIDIA GPU 加速器的大型语言模型的高吞吐量和内存效率推测和服务运行时 | |
vLLM Intel Gaudi Accelerator ServingRuntime for KServe | 支持 Intel Gaudi Accelerator 的高吞吐量和内存效率推测和服务运行时 | |
vLLM AMD GPU ServingRuntime for KServe | 支持 AMD GPU 加速器的高吞吐量和内存效率推测和服务运行时 |
- 复合 Caikit-TGIS 运行时基于 Caikit 和 文本 Generation Inference Server (TGIS)。要使用此运行时,您必须将模型转换为 Caikit 格式。例如,请参阅 cai kit-tgis-serving 存储库中的 Hugging Face Hub 模型转换为 Caikit 格式。
- Caikit 独立运行时基于 Caikit NLP。要使用此运行时,您必须将模型转换为 Caikit 嵌入格式。例如,请参阅 嵌入模块的文本 测试。
- KServe 文本 Generation Inference Server (TGIS) Standalone ServingRuntime 已弃用。如需更多信息,请参阅 Red Hat OpenShift AI 发行注记。
Name | 默认协议 | 附加组件协议 | 模型网格支持 | 单节点 OpenShift 支持 | 部署模式 |
---|---|---|---|---|---|
Caikit 文本 Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe | REST | gRPC | 否 | 是 | raw 和 serverless |
Caikit Standalone ServingRuntime for KServe | REST | gRPC | 否 | 是 | raw 和 serverless |
OpenVINO Model Server | REST | None | 是 | 是 | raw 和 serverless |
[已弃用] 文本 Generation Inference Server (TGIS) Standalone ServingRuntime for KServe | gRPC | None | 否 | 是 | raw 和 serverless |
vLLM NVIDIA GPU ServingRuntime for KServe | REST | None | 否 | 是 | raw 和 serverless |
vLLM Intel Gaudi Accelerator ServingRuntime for KServe | REST | None | 否 | 是 | raw 和 serverless |
vLLM AMD GPU ServingRuntime for KServe | REST | None | 否 | 是 | raw 和 serverless |