2.2. シングルモデルサービングプラットフォームへのモデルのデプロイ

Deploy a model ウィザードを使用して、シングルモデルサービングプラットフォームに Generative AI (GenAI) モデルまたは Predictive AI モデルをデプロイできます。ウィザードを使用すると、モデルの場所とタイプの指定、サービングランタイムの選択、ハードウェアプロファイルの割り当て、外部ルートやトークン認証などの詳細設定など、モデルを設定できます。

モデルを正常にデプロイするには、次の前提条件を満たす必要があります。

一般的な前提条件

Red Hat OpenShift AI にログインしている。
KServe がインストールされ、シングルモデルサービングプラットフォームが有効化されている。
プリインストール済み、またはカスタムのモデルサービングランタイムを有効化している。
プロジェクトを作成している。
S3 互換のオブジェクトストレージ、URI ベースのリポジトリー、OCI 準拠のレジストリー、または永続ボリューム要求 (PVC) にアクセスでき、プロジェクトへの接続が追加されている。接続の追加の詳細は、プロジェクトへの接続の追加を参照してください。
モデルサーバーでグラフィックスプロセッシングユニット (GPU) を使用する場合は、OpenShift AI で GPU サポートを有効にした。NVIDIA GPU を使用する場合は、NVIDIA GPU の有効化を参照してください。AMD GPU を使用する場合は、AMD GPU の統合を参照してください。

ランタイム固有の前提条件

使用予定の特定のランタイムの要件を満たしている。

Caikit-TGIS ランタイム
- Caikit-TGIS ランタイムを使用するために、モデルを Caikit 形式に変換した。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
vLLM NVIDIA GPU ServingRuntime for KServe
- vLLM NVIDIA GPU ServingRuntime for KServe ランタイムを使用するために、OpenShift AI で GPU サポートを有効にし、クラスターに Node Feature Discovery Operator をインストールして設定している。詳細は、Node Feature Discovery Operator のインストールと NVIDIA GPU の有効化を参照してください。
vLLM CPU ServingRuntime for KServe
- IBM Z および IBM Power で VLLM ランタイムを使用するには、KServe 用の vLLM CPU ServingRuntime を使用する。IBM Z および IBM Power アーキテクチャーでは GPU アクセラレーターは使用できません。詳細は、Red Hat OpenShift Multi Architecture Component Availability Matrix を参照してください。
vLLM Intel Gaudi Accelerator ServingRuntime for KServe
- vLLM Intel Gaudi Accelerator ServingRuntime for KServe ランタイムを使用するために、OpenShift AI でハイブリッドプロセッシングユニット (HPU) のサポートを有効にした。これには、Gaudi Base Operator のインストールとハードウェアプロファイルの設定が含まれます。詳細は、AMD ドキュメントの Intel Gaudi Base Operator OpenShift installation およびハードウェアプロファイルの使用を参照してください。
vLLM AMD GPU ServingRuntime for KServe
- vLLM AMD GPU ServingRuntime for KServe ランタイムを使用するために、OpenShift AI で AMD グラフィックプロセッシングユニット (GPU) のサポートを有効にした。これには、AMD GPU Operator のインストールとハードウェアプロファイルの設定が含まれます。詳細は、Deploying the AMD GPU operator on OpenShift およびハードウェアプロファイルの使用を参照してください。
vLLM Spyre AI Accelerator ServingRuntime for KServe

重要

x86 上の IBM Spyre AI Accelerators のサポートは、現在、Red Hat OpenShift AI 3.0 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲を参照してください。

x86 上の vLLM Spyre AI Accelerator ServingRuntime for KServe を使用するために、Spyre Operator をインストールし、ハードウェアプロファイルを設定している。詳細は、Spyre operator image およびハードウェアプロファイルの使用を参照してください。
- vLLM Spyre s390x ServingRuntime for KServe
IBM Z 上の vLLM Spyre s390x ServingRuntime for KServe を使用するために、Spyre Operator をインストールし、ハードウェアプロファイルを設定している。詳細は、Spyre operator image およびハードウェアプロファイルの使用を参照してください。

手順

左側のメニューで、Projects をクリックします。
モデルをデプロイするプロジェクトの名前をクリックします。
プロジェクトの詳細ページが開きます。
Deployments タブをクリックします。
Deploy model ボタンをクリックします。
Deploy a model ウィザードが開きます。
Model details セクションで、モデルに関する情報を入力します。
1. Model location リストから、モデルが保存されている場所を指定し、connection detail フィールドに入力します。
  注記
  OCI-compliant registry、S3 compatible object storage、URI オプションは、事前にインストールされた接続タイプです。OpenShift AI 管理者が追加した場合は、追加のオプションが利用できる場合があります。
  モデルファイルを永続ボリューム要求 (PVC) にアップロードし、その PVC がワークベンチにアタッチされている場合は、Model location リストで Cluster storage オプションが使用可能になります。このオプションを使用して PVC を選択し、モデルファイルへのパスを指定します。
2. Model type リストから、デプロイするモデルのタイプ (Predictive または Generative AI model) を選択します。
3. Next をクリックします。
Model deployment セクションで、デプロイメントを設定します。
1. Model deployment name フィールドに、モデルデプロイメントの一意の名前を入力します。
2. Description フィールドに、デプロイメントの説明を入力します。
3. Hardware profile リストから、ハードウェアプロファイルを選択します。
4. オプション: デフォルトのリソース割り当てを変更するには、Customize resource requests and limits をクリックし、CPU とメモリーの要求と制限に新しい値を入力します。
5. Serving runtime フィールドで、有効なランタイムを選択します。
  注記
  プロジェクトスコープのランタイムが存在する場合、Serving runtime リストには、グローバルランタイムとプロジェクトスコープのランタイムを区別するためのサブ見出しが含まれます。
6. オプション: Predictive model タイプを選択した場合は、Model framework (name - version) リストからフレームワークを選択します。このフィールドは、Generative AI モデルでは非表示になります。
7. Number of model server replicas to deploy フィールドに値を指定します。
8. Next をクリックします。
Advanced settings セクションで、詳細オプションを設定します。
1. オプション: (Generative AI モデルのみ) モデルのエンドポイントを AI asset endpoints ページに追加する場合は、Add as AI asset endpoint チェックボックスをオンにします。
  1. Use case フィールドに、チャット、マルチモーダル、自然言語処理など、モデルが実行するタスクの種類を入力します。
    注記
    GenAI プレイグラウンドでモデルをテストするには、モデルを AI アセットエンドポイントとして追加する必要があります。
2. オプション: モデルのデプロイメントを外部ルート経由で利用できるようにするには、Model access チェックボックスをオンにします。
3. オプション: デプロイされたモデルへの推論リクエストに対してトークン認証を必須とするには、Require token authentication を選択します。
4. Service account name フィールドに、トークンが生成されるサービスアカウント名を入力します。
5. 追加のサービスアカウントを追加するには、Add a service account をクリックし、別のサービスアカウント名を入力します。
6. オプション: Configuration parameters セクションで、以下を実行します。
  1. Add custom runtime arguments を選択し、テキストフィールドに引数を入力します。
  2. Add custom runtime environment variables チェックボックスをオンにし、Add variable をクリックして、テキストフィールドにカスタム変数を入力します。
Deploy をクリックします。

検証

デプロイされたモデルがプロジェクトの Deployments タブに表示され、ダッシュボードの Deployments ページで Status 列にチェックマークが付いて表示されていることを確認します。

2.2. シングルモデルサービングプラットフォームへのモデルのデプロイ

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links