2.7. サポート対象のモデルサービングランタイム
OpenShift AI には、いくつかのプリインストールされたモデルサービングランタイムが含まれています。プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。モデルをサポートするために、カスタムランタイムを追加することもできます。
カスタムランタイムの追加に関するサポートは、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。
名前 | 説明 | エクスポートされたモデル形式 |
---|---|---|
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1) | Caikit 形式のモデルを提供するための複合ランタイム | Caikit テキスト生成 |
Caikit Standalone ServingRuntime for KServe (2) | 埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム | Caikit の埋め込み |
OpenVINO Model Server | Intel アーキテクチャーに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム | PyTorch、TensorFlow、OpenVINO IR、PaddlePaddle、MXNet、Caffe、Kaldi |
[非推奨] Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3) | TGI 対応モデルを提供するためのランタイム | PyTorch モデル形式 |
vLLM NVIDIA GPU ServingRuntime for KServe | NVIDIA GPU アクセラレーターをサポートする大規模言語モデル向けの高スループットでメモリー効率の高い推論およびサービングランタイム | |
vLLM Intel Gaudi Accelerator ServingRuntime for KServe | Intel Gaudi アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム | |
vLLM AMD GPU ServingRuntime for KServe | AMD GPU アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム | |
vLLM CPU ServingRuntime for KServe | IBM Power (ppc64le) および IBM Z (s390x) をサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム |
- 複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
- Caikit Standalone ランタイムは Caikit NLP に基づいています。このランタイムを使用するには、モデルを Caikit 埋め込み形式に変換する必要があります。例は、Tests for text embedding module を参照してください。
- Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe は非推奨となりました。詳細は、Red Hat OpenShift AI リリースノート を参照してください。
名前 | デフォルトプロトコル | 追加プロトコル | モデルメッシュのサポート | シングルノードの OpenShift サポート | デプロイメントモード |
---|---|---|---|---|---|
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe | REST | gRPC | いいえ | はい | raw および serverless |
Caikit Standalone ServingRuntime for KServe | REST | gRPC | いいえ | はい | raw および serverless |
OpenVINO Model Server | REST | なし | はい | はい | raw および serverless |
[非推奨] Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe | gRPC | なし | いいえ | はい | raw および serverless |
vLLM NVIDIA GPU ServingRuntime for KServe | REST | なし | いいえ | はい | raw および serverless |
vLLM Intel Gaudi Accelerator ServingRuntime for KServe | REST | なし | いいえ | はい | raw および serverless |
vLLM AMD GPU ServingRuntime for KServe | REST | なし | いいえ | はい | raw および serverless |
vLLM CPU ServingRuntime for KServe[1] | REST | なし | いいえ | はい | Raw |
[1] IBM Z および IBM Power アーキテクチャーを使用している場合は、標準デプロイメントモードでのみモデルをデプロイできます。