2.7. サポート対象のモデルサービングランタイム


OpenShift AI には、いくつかのプリインストールされたモデルサービングランタイムが含まれています。プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。モデルをサポートするために、カスタムランタイムを追加することもできます。

カスタムランタイムの追加に関するサポートは、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。

Expand
表2.1 モデルサービングランタイム
名前説明エクスポートされたモデル形式

Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe (1)

Caikit 形式のモデルを提供するための複合ランタイム

Caikit テキスト生成

Caikit Standalone ServingRuntime for KServe (2)

埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム

Caikit の埋め込み

OpenVINO Model Server

Intel アーキテクチャーに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム

PyTorch、TensorFlow、OpenVINO IR、PaddlePaddle、MXNet、Caffe、Kaldi

[非推奨] Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe (3)

TGI 対応モデルを提供するためのランタイム

PyTorch モデル形式

vLLM NVIDIA GPU ServingRuntime for KServe

NVIDIA GPU アクセラレーターをサポートする大規模言語モデル向けの高スループットでメモリー効率の高い推論およびサービングランタイム

サポート対象モデル

vLLM Intel Gaudi Accelerator ServingRuntime for KServe

Intel Gaudi アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム

サポート対象モデル

vLLM AMD GPU ServingRuntime for KServe

AMD GPU アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム

サポート対象モデル

vLLM CPU ServingRuntime for KServe

IBM Power (ppc64le) および IBM Z (s390x) をサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイム

サポート対象モデル

  1. 複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
  2. Caikit Standalone ランタイムは Caikit NLP に基づいています。このランタイムを使用するには、モデルを Caikit 埋め込み形式に変換する必要があります。例は、Tests for text embedding module を参照してください。
  3. Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe は非推奨となりました。詳細は、Red Hat OpenShift AI リリースノート を参照してください。
Expand
表2.2 デプロイメント要件
名前デフォルトプロトコル追加プロトコルモデルメッシュのサポートシングルノードの OpenShift サポートデプロイメントモード

Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe

REST

gRPC

いいえ

はい

raw および serverless

Caikit Standalone ServingRuntime for KServe

REST

gRPC

いいえ

はい

raw および serverless

OpenVINO Model Server

REST

なし

はい

はい

raw および serverless

[非推奨] Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe

gRPC

なし

いいえ

はい

raw および serverless

vLLM NVIDIA GPU ServingRuntime for KServe

REST

なし

いいえ

はい

raw および serverless

vLLM Intel Gaudi Accelerator ServingRuntime for KServe

REST

なし

いいえ

はい

raw および serverless

vLLM AMD GPU ServingRuntime for KServe

REST

なし

いいえ

はい

raw および serverless

vLLM CPU ServingRuntime for KServe[1]

REST

なし

いいえ

はい

Raw

[1] IBM Z および IBM Power アーキテクチャーを使用している場合は、標準デプロイメントモードでのみモデルをデプロイできます。



[1] vLLM CPU ServingRuntime for KServe
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat