OpenShift AI には、いくつかのプリインストールされたモデルサービングランタイムが含まれています。プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。モデルをサポートするために、カスタムランタイムを追加することもできます。

カスタムランタイムの追加に関するサポートは、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加を参照してください。

表3.1 モデルサービングランタイム
名前	説明	エクスポートされたモデル形式
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1)	Caikit 形式のモデルを提供するための複合ランタイム	Caikit テキスト生成
Caikit Standalone ServingRuntime for KServe (2)	埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム	Caikit の埋め込み
OpenVINO Model Server	Intel アーキテクチャーに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム	PyTorch、TensorFlow、OpenVINO IR、PaddlePaddle、MXNet、Caffe、Kaldi
Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3)	TGI 対応モデルを提供するためのランタイム	PyTorch モデル形式
vLLM ServingRuntime for KServe	大規模言語モデル向けの高スループットかつメモリー効率の高い推論およびサービングランタイム	サポート対象モデル
vLLM ServingRuntime with Gaudi accelerators support for KServe	Intel Gaudi アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム	サポート対象モデル
vLLM ROCm ServingRuntime for KServe	IAMD GPU アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム	サポート対象モデル

複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
Caikit Standalone ランタイムは Caikit NLP に基づいています。このランタイムを使用するには、モデルを Caikit 埋め込み形式に変換する必要があります。例は、Tests for text embedding module を参照してください。
Text Generation Inference Server (TGIS) は、Hugging Face TGI の初期のフォークに基づいています。Red Hat は、TGI モデルをサポートするスタンドアロン TGIS ランタイムの開発を継続します。モデルが OpenShift AI の最新バージョンと互換性がない場合は、今後のバージョンでサポートが追加される可能性があります。それまでの間は、独自のカスタムランタイムを追加して TGI モデルをサポートすることもできます。詳細は、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加を参照してください。

表3.2 デプロイメント要件
名前	デフォルトプロトコル	追加プロトコル	モデルメッシュのサポート	シングルノードの OpenShift サポート	デプロイメントモード
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe	REST	gRPC	いいえ	はい	raw および serverless
Caikit Standalone ServingRuntime for KServe	REST	gRPC	いいえ	はい	raw および serverless
OpenVINO Model Server	REST	なし	はい	はい	raw および serverless
Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe	gRPC	なし	いいえ	はい	raw および serverless
vLLM ServingRuntime for KServe	REST	なし	いいえ	はい	raw および serverless
vLLM ServingRuntime with Gaudi accelerators support for KServe	REST	なし	いいえ	はい	raw および serverless
vLLM ROCm ServingRuntime for KServe	REST	なし	いいえ	はい	raw および serverless

関連情報

推論エンドポイント