2.2. シングルモデルサービングプラットフォームへのモデルのデプロイ
シングルモデルサービングプラットフォームを有効にすると、プリインストールまたはカスタムのモデルサービングランタイムを有効にして、モデルをプラットフォームへデプロイできます。
プリインストールされたモデルサービングランタイムを使用すると、ランタイムを自分で変更したり定義したりすることなく、モデルの提供を開始できます。カスタムランタイムの追加は、シングルモデルサービングプラットフォーム用のカスタムモデルサービングランタイムの追加 を参照してください。
モデルを正常にデプロイするには、次の前提条件を満たす必要があります。
一般的な前提条件
- Red Hat OpenShift AI にログインしている。
- KServe がインストールされ、シングルモデルサービングプラットフォームが有効化されている。
- (Knative Serverless デプロイメントのみ) デプロイされたモデルのトークン認証と外部モデルルートを有効にするために、Authorino を認可プロバイダーとして追加している。詳細は、シングルモデルサービングプラットフォームの認可プロバイダーの追加 を参照してください。
- (Knative Serverless デプロイメントのみ) デプロイされたモデルのトークン認証と外部モデルルートを有効にするために、Authorino を認可プロバイダーとして追加している。
- データサイエンスプロジェクトを作成した。
- S3 互換のオブジェクトストレージ、URI ベースのリポジトリー、OCI 準拠のレジストリー、または永続ボリューム要求 (PVC) にアクセスでき、データサイエンスプロジェクトへの接続が追加されている。接続の追加の詳細は、データサイエンスプロジェクトへの接続の追加 を参照してください。
- モデルサーバーでグラフィックスプロセッシングユニット (GPU) を使用する場合は、OpenShift AI で GPU サポートを有効にした。NVIDIA GPU を使用する場合は、NVIDIA GPU の有効化 を参照してください。AMD GPU を使用する場合は、AMD GPU の統合 を参照してください。
ランタイム固有の前提条件
使用予定の特定のランタイムの要件を満たしている。
Caikit-TGIS ランタイム
- Caikit-TGIS ランタイムを使用するために、モデルを Caikit 形式に変換した。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
vLLM NVIDIA GPU ServingRuntime for KServe
- vLLM NVIDIA GPU ServingRuntime for KServe ランタイムを使用するために、OpenShift AI で GPU サポートを有効にし、クラスターに Node Feature Discovery Operator をインストールして設定している。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
vLLM CPU ServingRuntime for KServe
- IBM Z および IBM Power で VLLM ランタイムを使用するには、KServe 用の vLLM CPU ServingRuntime を使用する。IBM Z および IBM Power アーキテクチャーでは GPU アクセラレーターは使用できません。詳細は、Red Hat OpenShift Multi Architecture Component Availability Matrix を参照してください。
vLLM Intel Gaudi Accelerator ServingRuntime for KServe
- vLLM Intel Gaudi Accelerator ServingRuntime for KServe ランタイムを使用するために、OpenShift AI でハイブリッドプロセッシングユニット (HPU) のサポートを有効にした。これには、Gaudi Base Operator のインストールとハードウェアプロファイルの設定が含まれます。詳細は、AMD ドキュメントの Intel Gaudi Base Operator OpenShift installation および ハードウェアプロファイルの使用 を参照してください。
vLLM AMD GPU ServingRuntime for KServe
- vLLM AMD GPU ServingRuntime for KServe ランタイムを使用するために、OpenShift AI で AMD グラフィックプロセッシングユニット (GPU) のサポートを有効にした。これには、AMD GPU Operator のインストールとハードウェアプロファイルの設定が含まれます。詳細は、Deploying the AMD GPU operator on OpenShift および ハードウェアプロファイルの使用 を参照してください。
vLLM Spyre AI Accelerator ServingRuntime for KServe
重要x86 上の IBM Spyre AI Accelerators のサポートは、現在、Red Hat OpenShift AI 2.25 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
- x86 上の vLLM Spyre AI Accelerator ServingRuntime for KServe を使用するために、Spyre Operator をインストールし、ハードウェアプロファイルを設定している。詳細は、Spyre operator image および ハードウェアプロファイルの使用 を参照してください。
手順
- 左側のメニューで、Data science projects をクリックします。
モデルをデプロイするプロジェクトの名前をクリックします。
プロジェクトの詳細ページが開きます。
- Models タブをクリックします。
- シングルモデルサービングを使用してモデルをデプロイするには、Select single-model をクリックします。
Deploy model ボタンをクリックします。
Deploy model ダイアログが開きます。
- Model deployment name フィールドに、デプロイするモデルの一意の名前を入力します。
- Serving runtime フィールドで、有効なランタイムを選択します。プロジェクトスコープのランタイムが存在する場合、Serving runtime リストには、グローバルランタイムとプロジェクトスコープのランタイムを区別するためのサブ見出しが含まれます。
- Model framework (name - version) リストから、該当する場合は値を選択します。
- Deployment mode リストから、KServe RawDeployment または Knative Serverless を選択します。デプロイメントモードの詳細は、KServe デプロイメントモードについて を参照してください。
- Number of model server replicas to deploy フィールドに値を指定します。
次のオプションは、ハードウェアプロファイルを作成した場合にのみ使用できます。
Hardware profile リストから、ハードウェアプロファイルを選択します。プロジェクトスコープのハードウェアプロファイルが存在する場合、Hardware profile リストには、グローバルハードウェアプロファイルとプロジェクトスコープのハードウェアプロファイルを区別するためのサブ見出しが含まれます。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ハードウェアプロファイルを有効にすると、Accelerator profiles リストの代わりに Hardware profiles リストが表示されます。ダッシュボードのナビゲーションメニューの Settings
Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。- オプション: これらのデフォルト値を変更するには、Customize resource requests and limit をクリックし、新しい最小値 (要求) と最大値 (制限) を入力します。ハードウェアプロファイルは、コンテナーに割り当てられる CPU の数とメモリーの量を指定し、両方に対して保証される最小値 (要求) と最大値 (制限) を設定します。
- オプション: Model route セクションで、Make deployed models available through an external route チェックボックスをオンにして、デプロイされたモデルを外部クライアントが利用できるようにします。
デプロイされたモデルに対する推論リクエストにトークン認証を要求するには、次のアクションを実行します。
- Require token authentication を選択します。
- Service account name フィールドに、トークンが生成されるサービスアカウント名を入力します。
- 追加のサービスアカウントを追加するには、Add a service account をクリックし、別のサービスアカウント名を入力します。
モデルの場所を指定するには、追加した Connection type を選択します。OCI-compliant registry、S3 compatible object storage、URI オプションは、事前にインストールされた接続タイプです。OpenShift AI 管理者が追加した場合は、追加のオプションが利用できる場合があります。
S3 互換オブジェクトストレージの場合: Path フィールドに、指定したデータソース内のモデルが含まれるフォルダーパスを入力します。
重要OpenVINO Model Server ランタイムには、モデルパスの指定方法に関する特定の要件があります。詳細は、OpenShift AI リリースノートの既知の問題 RHOAIENG-3025 を参照してください。
Open Container Image 接続の場合: OCI storage location フィールドに、モデルが配置されているモデル URI を入力します。
注記既存の S3、URI、または OCI データ接続を使用して登録済みのモデルバージョンをデプロイする場合は、接続に関する詳細の一部が自動入力されることがあります。これは、データ接続の種類と、データサイエンスプロジェクトで使用できる一致する接続の数によって異なります。たとえば、一致する接続が 1 つだけ存在する場合、パス、URI、エンドポイント、モデル URI、バケット、リージョンなどのフィールドが自動的に入力されることがあります。一致する接続には Recommended というラベルが付けられます。
- 接続詳細フィールドに入力します。
オプション: モデルファイルを永続ボリューム要求 (PVC) にアップロードし、その PVC がワークベンチにアタッチされている場合は、Existing cluster storage オプションを使用して PVC を選択し、モデルファイルへのパスを指定します。
重要接続タイプが S3 互換オブジェクトストレージの場合は、データファイルが含まれるフォルダーパスを指定する必要があります。OpenVINO Model Server ランタイムには、モデルパスの指定方法に関する特定の要件があります。詳細は、OpenShift AI リリースノートの既知の問題 RHOAIENG-3025 を参照してください。
(オプション) Configuration parameters セクションでランタイムパラメーターをカスタマイズします。
- Additional serving runtime arguments の値を変更して、デプロイされるモデルの動作を定義します。
モデルの環境内の変数を定義するには、Additional environment variables の値を変更します。
Configuration parameters セクションに、事前定義されたサービングランタイムパラメーターが表示されます (利用可能な場合)。
注記ポートまたはモデルサービングランタイムの引数は変更しないでください。これらの引数には、特定の値を設定する必要があるためです。これらのパラメーターを上書きすると、デプロイが失敗する可能性があります。
- Deploy をクリックします。
検証
- デプロイされたモデルがプロジェクトの Models タブに表示され、ダッシュボードの Model deployments ページで Status 列にチェックマークが付いて表示されていることを確認します。