3.6. サポート対象のモデルサービングランタイム
OpenShift AI には、いくつかのプリインストールされたモデルサービングランタイムが含まれています。プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。モデルをサポートするために、カスタムランタイムを追加することもできます。
カスタムランタイムの追加に関するサポートは、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。
名前 | 説明 | エクスポートされたモデル形式 |
---|---|---|
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1) | Caikit 形式のモデルを提供するための複合ランタイム | Caikit テキスト生成 |
Caikit Standalone ServingRuntime for KServe (2) | 埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム | Caikit の埋め込み |
OpenVINO Model Server | Intel アーキテクチャーに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム | PyTorch、TensorFlow、OpenVINO IR、PaddlePaddle、MXNet、Caffe、Kaldi |
Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3) | TGI 対応モデルを提供するためのランタイム | PyTorch モデル形式 |
vLLM ServingRuntime for KServe | 大規模言語モデル向けの高スループットかつメモリー効率の高い推論およびサービングランタイム | |
KServe の Gaudi accelerators サポートを備えた VLLM ServingRuntime | Intel Gaudi アクセラレーターをサポートする高スループットおよびメモリー効率の高い推論および提供ランタイム |
- 複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
- Caikit Standalone ランタイムは Caikit NLP に基づいています。このランタイムを使用するには、モデルを Caikit 埋め込み形式に変換する必要があります。例は、Tests for text embedding module を参照してください。
- Text Generation Inference Server (TGIS) は、Hugging Face TGI の初期のフォークに基づいています。Red Hat は、TGI モデルをサポートするスタンドアロン TGIS ランタイムの開発を継続します。モデルが OpenShift AI の最新バージョンと互換性がない場合は、今後のバージョンでサポートが追加される可能性があります。それまでの間は、独自のカスタムランタイムを追加して TGI モデルをサポートすることもできます。詳細は、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。
名前 | デフォルトプロトコル | 追加プロトコル | モデルメッシュのサポート | シングルノードの OpenShift サポート | デプロイメントモード |
---|---|---|---|---|---|
Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe | REST | gRPC | いいえ | はい | raw および serverless |
Caikit Standalone ServingRuntime for KServe | REST | gRPC | いいえ | はい | raw および serverless |
OpenVINO Model Server | REST | なし | はい | はい | raw および serverless |
Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe | gRPC | なし | いいえ | はい | raw および serverless |
vLLM ServingRuntime for KServe | REST | なし | いいえ | はい | raw および serverless |
KServe の Gaudi accelerators サポートを備えた VLLM ServingRuntime | REST | なし | いいえ | はい | raw および serverless |
関連情報