第3章 NVIDIA NIM モデルサービングプラットフォームにモデルをデプロイする


NVIDIA NIM モデルサービングプラットフォームで NVIDIA NIM 推論サービスを使用してモデルをデプロイできます。

NVIDIA AI Enterprise の一部である NVIDIA NIM は、クラウド、データセンター、ワークステーションをまたいで推論を実行する高性能 AI モデルの、セキュアで信頼性の高いデプロイメントのために設計されたマイクロサービスのセットです。

3.1. NVIDIA NIM モデルサービングプラットフォームにモデルをデプロイする

NVIDIA NIM モデルサービングプラットフォーム を有効にすると、プラットフォーム上で NVIDIA 向けに最適化されたモデルのデプロイを開始できます。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • NVIDIA NIM モデルサービングプラットフォーム を有効にした。
  • データサイエンスプロジェクトを作成した。
  • OpenShift AI でグラフィックプロセッシングユニット (GPU) のサポートを有効にした。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストールNVIDIA GPU の有効化 を参照してください。

手順

  1. 左側のメニューで、Data science projects をクリックします。

    Data science projects のページが開きます。

  2. モデルをデプロイするプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Models タブをクリックします。
  4. Models セクションで、次のいずれかの操作クションを実行します。

    • NVIDIA NIM model serving platform タイルで、タイル上の Select NVIDIA NIM をクリックし、Deploy model をクリックします。
    • 以前に NVIDIA NIM モデルサービングタイプを選択した場合は、Models ページの右上隅に NVIDIA model serving enabled が表示され、Deploy model ボタンも表示されます。続行するには、Deploy model をクリックします。

    Deploy model ダイアログが開きます。

  5. モデルをデプロイするためのプロパティーを次のように設定します。

    1. Model deployment name フィールドに、デプロイメントの一意の名前を入力します。
    2. NVIDIA NIM リストから、デプロイする NVIDIA NIM モデルを選択します。詳細は、Supported Models を参照してください。
    3. NVIDIA NIM storage size フィールドで、NVIDIA NIM モデルを保存するために作成されるクラスターストレージインスタンスのサイズを指定します。

      注記

      OpenShift AI で Amazon EBS によってサポートされる PersistentVolumeClaim (PVC) のサイズを変更すると、VolumeModificationRateExceeded: You've reached the maximum modification rate per volume limit. エラーが発生する場合があります。このエラーを回避するには、EBS ボリュームごとに変更の間隔を少なくとも 6 時間空けてください。クールダウンの期間が終了する前に PVC のサイズを変更すると、Amazon EBS CSI ドライバー (ebs.csi.aws.com) がこのエラーで失敗します。このエラーは、Amazon EBS サービスの制限で、EBS ベースの PVC を使用するすべてのワークロードが対象です。

    4. Number of model server replicas to deploy フィールドに値を指定します。
    5. Model server size リストから値を選択します。
  6. Hardware profile リストから、ハードウェアプロファイルを選択します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ハードウェアプロファイルを有効にすると、Accelerator profiles リストの代わりに Hardware profiles リストが表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

  7. オプション: Customize resource requests and limit をクリックし、次の値を更新します。

    1. CPUs requests フィールドで、モデルサーバーで使用する CPU の数を指定します。このフィールドの横にあるリストを使用して、値をコアまたはミリコアで指定します。
    2. CPU limits フィールドで、モデルサーバーで使用する CPU の最大数を指定します。このフィールドの横にあるリストを使用して、値をコアまたはミリコアで指定します。
    3. Memory requests フィールドで、モデルサーバーに要求されたメモリーをギビバイト (Gi) 単位で指定します。
    4. Memory limits フィールドに、モデルサーバーの最大メモリー制限をギビバイト (Gi) 単位で指定します。
  8. オプション: Model route セクションで、Make deployed models available through an external route チェックボックスをオンにして、デプロイされたモデルを外部クライアントが利用できるようにします。
  9. デプロイされたモデルに対する推論リクエストにトークン認証を要求するには、次のアクションを実行します。

    1. Require token authentication を選択します。
    2. Service account name フィールドに、トークンが生成されるサービスアカウント名を入力します。
    3. 追加のサービスアカウントを追加するには、Add a service account をクリックし、別のサービスアカウント名を入力します。
  10. Deploy をクリックします。

検証

  • デプロイされたモデルがプロジェクトの Models タブに表示され、ダッシュボードの Model deployments ページで Status 列にチェックマークが付いて表示されていることを確認します。
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る