3.6. サポート対象のモデルサービングランタイム


OpenShift AI には、いくつかのプリインストールされたモデルサービングランタイムが含まれています。プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。モデルをサポートするために、カスタムランタイムを追加することもできます。

カスタムランタイムの追加に関するサポートは、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。

表3.1 モデルサービングランタイム
名前説明エクスポートされたモデル形式

Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1)

Caikit 形式のモデルを提供するための複合ランタイム

Caikit テキスト生成

Caikit Standalone ServingRuntime for KServe (2)

埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム

Caikit の埋め込み

OpenVINO Model Server

Intel アーキテクチャーに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム

PyTorch、TensorFlow、OpenVINO IR、PaddlePaddle、MXNet、Caffe、Kaldi

Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3)

TGI 対応モデルを提供するためのランタイム

PyTorch モデル形式

vLLM ServingRuntime for KServe

大規模言語モデル向けの高スループットかつメモリー効率の高い推論およびサービングランタイム

サポート対象モデル

KServe の Gaudi accelerators サポートを備えた VLLM ServingRuntime

Intel Gaudi アクセラレーターをサポートする高スループットおよびメモリー効率の高い推論および提供ランタイム

サポート対象モデル

  1. 複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
  2. Caikit Standalone ランタイムは Caikit NLP に基づいています。このランタイムを使用するには、モデルを Caikit 埋め込み形式に変換する必要があります。例は、Tests for text embedding module を参照してください。
  3. Text Generation Inference Server (TGIS) は、Hugging Face TGI の初期のフォークに基づいています。Red Hat は、TGI モデルをサポートするスタンドアロン TGIS ランタイムの開発を継続します。モデルが OpenShift AI の最新バージョンと互換性がない場合は、今後のバージョンでサポートが追加される可能性があります。それまでの間は、独自のカスタムランタイムを追加して TGI モデルをサポートすることもできます。詳細は、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。
表3.2 デプロイメント要件
名前デフォルトプロトコル追加プロトコルモデルメッシュのサポートシングルノードの OpenShift サポートデプロイメントモード

Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe

REST

gRPC

いいえ

はい

raw および serverless

Caikit Standalone ServingRuntime for KServe

REST

gRPC

いいえ

はい

raw および serverless

OpenVINO Model Server

REST

なし

はい

はい

raw および serverless

Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe

gRPC

なし

いいえ

はい

raw および serverless

vLLM ServingRuntime for KServe

REST

なし

いいえ

はい

raw および serverless

KServe の Gaudi accelerators サポートを備えた VLLM ServingRuntime

REST

なし

いいえ

はい

raw および serverless

Red Hat logoGithubRedditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

© 2024 Red Hat, Inc.