ホーム
製品
Red Hat OpenShift AI Self-Managed
2.22
モデルのサービング
2.7. サポート対象のモデルサービングランタイム

2.7. サポート対象のモデルサービングランタイム

OpenShift AI には、いくつかのプリインストールされたモデルサービングランタイムが含まれています。プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。モデルをサポートするために、カスタムランタイムを追加することもできます。

カスタムランタイムの追加に関するサポートは、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加を参照してください。

Expand

表2.1 モデルサービングランタイム
名前	説明	エクスポートされたモデル形式
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1)	Caikit 形式のモデルを提供するための複合ランタイム	Caikit テキスト生成
Caikit Standalone ServingRuntime for KServe (2)	埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム	Caikit の埋め込み
OpenVINO Model Server	Intel アーキテクチャーに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム	PyTorch、TensorFlow、OpenVINO IR、PaddlePaddle、MXNet、Caffe、Kaldi
[非推奨] Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3)	TGI 対応モデルを提供するためのランタイム	PyTorch モデル形式
vLLM NVIDIA GPU ServingRuntime for KServe	NVIDIA GPU アクセラレーターをサポートする大規模言語モデル向けの高スループットでメモリー効率の高い推論およびサービングランタイム	サポート対象モデル
vLLM Intel Gaudi Accelerator ServingRuntime for KServe	Intel Gaudi アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム	サポート対象モデル
vLLM AMD GPU ServingRuntime for KServe	AMD GPU アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム	サポート対象モデル
vLLM CPU ServingRuntime for KServe	IBM Power (ppc64le) および IBM Z (s390x) をサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム	サポート対象モデル

複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
Caikit Standalone ランタイムは Caikit NLP に基づいています。このランタイムを使用するには、モデルを Caikit 埋め込み形式に変換する必要があります。例は、Tests for text embedding module を参照してください。
Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe は非推奨となりました。詳細は、Red Hat OpenShift AI リリースノートを参照してください。

Expand

表2.2 デプロイメント要件
名前	デフォルトプロトコル	追加プロトコル	モデルメッシュのサポート	シングルノードの OpenShift サポート	デプロイメントモード
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe	REST	gRPC	いいえ	はい	raw および serverless
Caikit Standalone ServingRuntime for KServe	REST	gRPC	いいえ	はい	raw および serverless
OpenVINO Model Server	REST	なし	はい	はい	raw および serverless
[非推奨] Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe	gRPC	なし	いいえ	はい	raw および serverless
vLLM NVIDIA GPU ServingRuntime for KServe	REST	なし	いいえ	はい	raw および serverless
vLLM Intel Gaudi Accelerator ServingRuntime for KServe	REST	なし	いいえ	はい	raw および serverless
vLLM AMD GPU ServingRuntime for KServe	REST	なし	いいえ	はい	raw および serverless
vLLM CPU ServingRuntime for KServe[1]	REST	なし	いいえ	はい	Raw

^[1] IBM Z および IBM Power アーキテクチャーを使用している場合は、標準デプロイメントモードでのみモデルをデプロイできます。

^[1] vLLM CPU ServingRuntime for KServe

2.7. サポート対象のモデルサービングランタイム

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links