第3章 NVIDIA NIM モデルサービングプラットフォームにモデルをデプロイする
NVIDIA NIM モデルサービングプラットフォームで NVIDIA NIM 推論サービスを使用してモデルをデプロイできます。
NVIDIA AI Enterprise の一部である NVIDIA NIM は、クラウド、データセンター、ワークステーションをまたいで推論を実行する高性能 AI モデルの、セキュアで信頼性の高いデプロイメントのために設計されたマイクロサービスのセットです。
3.1. NVIDIA NIM モデルサービングプラットフォームにモデルをデプロイする リンクのコピーリンクがクリップボードにコピーされました!
NVIDIA NIM モデルサービングプラットフォーム を有効にすると、プラットフォーム上で NVIDIA 向けに最適化されたモデルのデプロイを開始できます。
前提条件
- Red Hat OpenShift AI にログインしている。
- NVIDIA NIM モデルサービングプラットフォーム を有効にした。
- データサイエンスプロジェクトを作成した。
- OpenShift AI でグラフィックプロセッシングユニット (GPU) のサポートを有効にした。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
手順
左側のメニューで、Data science projects をクリックします。
Data science projects のページが開きます。
モデルをデプロイするプロジェクトの名前をクリックします。
プロジェクトの詳細ページが開きます。
- Models タブをクリックします。
Models セクションで、次のいずれかの操作クションを実行します。
- NVIDIA NIM model serving platform タイルで、タイル上の Select NVIDIA NIM をクリックし、Deploy model をクリックします。
- 以前に NVIDIA NIM モデルサービングタイプを選択した場合は、Models ページの右上隅に NVIDIA model serving enabled が表示され、Deploy model ボタンも表示されます。続行するには、Deploy model をクリックします。
Deploy model ダイアログが開きます。
モデルをデプロイするためのプロパティーを次のように設定します。
- Model deployment name フィールドに、デプロイメントの一意の名前を入力します。
- NVIDIA NIM リストから、デプロイする NVIDIA NIM モデルを選択します。詳細は、Supported Models を参照してください。
NVIDIA NIM storage size フィールドで、NVIDIA NIM モデルを保存するために作成されるクラスターストレージインスタンスのサイズを指定します。
注記OpenShift AI で Amazon EBS によってサポートされる PersistentVolumeClaim (PVC) のサイズを変更すると、
VolumeModificationRateExceeded: You've reached the maximum modification rate per volume limit.エラーが発生する場合があります。このエラーを回避するには、EBS ボリュームごとに変更の間隔を少なくとも 6 時間空けてください。クールダウンの期間が終了する前に PVC のサイズを変更すると、Amazon EBS CSI ドライバー (ebs.csi.aws.com) がこのエラーで失敗します。このエラーは、Amazon EBS サービスの制限で、EBS ベースの PVC を使用するすべてのワークロードが対象です。- Number of model server replicas to deploy フィールドに値を指定します。
- Model server size リストから値を選択します。
Hardware profile リストから、ハードウェアプロファイルを選択します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ハードウェアプロファイルを有効にすると、Accelerator profiles リストの代わりに Hardware profiles リストが表示されます。ダッシュボードのナビゲーションメニューの Settings
Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。オプション: Customize resource requests and limit をクリックし、次の値を更新します。
- CPUs requests フィールドで、モデルサーバーで使用する CPU の数を指定します。このフィールドの横にあるリストを使用して、値をコアまたはミリコアで指定します。
- CPU limits フィールドで、モデルサーバーで使用する CPU の最大数を指定します。このフィールドの横にあるリストを使用して、値をコアまたはミリコアで指定します。
- Memory requests フィールドで、モデルサーバーに要求されたメモリーをギビバイト (Gi) 単位で指定します。
- Memory limits フィールドに、モデルサーバーの最大メモリー制限をギビバイト (Gi) 単位で指定します。
- オプション: Model route セクションで、Make deployed models available through an external route チェックボックスをオンにして、デプロイされたモデルを外部クライアントが利用できるようにします。
デプロイされたモデルに対する推論リクエストにトークン認証を要求するには、次のアクションを実行します。
- Require token authentication を選択します。
- Service account name フィールドに、トークンが生成されるサービスアカウント名を入力します。
- 追加のサービスアカウントを追加するには、Add a service account をクリックし、別のサービスアカウント名を入力します。
- Deploy をクリックします。
検証
- デプロイされたモデルがプロジェクトの Models タブに表示され、ダッシュボードの Model deployments ページで Status 列にチェックマークが付いて表示されていることを確認します。