ホーム
製品
Red Hat OpenShift AI Cloud Service
1
OpenShift AI の管理
第7章アクセラレーターの有効化

第7章アクセラレーターの有効化

7.1. NVIDIA GPU の有効化
リンクのコピー

OpenShift AI で NVIDIA GPU を使用する前に、NVIDIA GPU Operator をインストールする必要があります。

重要

NVIDIA GPU アドオンはサポートされなくなりました。代わりに、NVIDIA GPU Operator をインストールして GPU を有効にします。デプロイメントに以前にインストールされた NVIDIA GPU アドオンがある場合は、NVIDIA GPU Operator をインストールする前に、Red Hat OpenShift Cluster Manager を使用してクラスターから NVIDIA GPU アドオンをアンインストールしてください。

前提条件

OpenShift クラスターにログインしている。
OpenShift クラスターの cluster-admin ロールを持っている。
NVIDIA GPU をインストールし、環境で検出されることを確認している。

手順

OpenShift クラスターで GPU サポートを有効にするには、NVIDIA ドキュメントの Red Hat OpenShift Container Platform 上の NVIDIA GPU Operator の手順に従ってください。
重要
Node Feature Discovery (NFD) Operator のインストール後に、NodeFeatureDiscovery のインスタンスを作成する必要があります。さらに、NVIDIA GPU Operator のインストール後に、ClusterPolicy を作成し、デフォルト値を入力する必要があります。
migration-gpu-status ConfigMap を削除します。
1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
2. Project を All Projects または redhat-ods-applications に設定して、適切な ConfigMap が表示されるようにします。
3. migration-gpu-status ConfigMap を検索します。
4. アクションメニュー (⋮) をクリックし、リストから Delete ConfigMap を選択します。
  Delete ConfigMap ダイアログが表示されます。
5. ダイアログで、正しい ConfigMap が削除されていることを確認します。
6. Delete をクリックします。
ダッシュボードの replicaset を再起動します。
1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
2. Workloads Deployments をクリックします。
3. Project を All Projects または redhat-ods-applications に設定して、適切なデプロイメントを確認できるようにします。
4. rhods-dashboard デプロイメントを検索します。
5. アクションメニュー (⋮) をクリックし、リストから Restart Rollout を選択します。
6. ロールアウト内のすべての Pod が完全に再起動したことが Status 列に示されるまで待ちます。

検証

リセットされた migration-gpu-status インスタンスは、AcceleratorProfile カスタムリソース定義 (CRD) 詳細ページの Instances タブにあります。
Administrator パースペクティブから、Operators Installed Operators ページに移動します。次の Operator が表示されていることを確認します。
- NVIDIA GPU
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)

Node Feature Discovery (NFD) および NVIDIA GPU Operator の完全なインストール後に、GPU が正しく検出されます。OpenShift コマンドラインインターフェイス (CLI) は、GPU ワーカーノードの適切な出力を表示します。以下に例を示します。

Expected output when the GPU is detected properly

# Expected output when the GPU is detected properly
oc describe node <node name>
...
Capacity:
  cpu:                4
  ephemeral-storage:  313981932Ki
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             16076568Ki
  nvidia.com/gpu:     1
  pods:               250
Allocatable:
  cpu:                3920m
  ephemeral-storage:  288292006229
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             12828440Ki
  nvidia.com/gpu:     1
  pods:               250

Copy to Clipboard

Toggle word wrap

注記

OpenShift AI では、Red Hat は同じクラスター内でのみアクセラレーターの使用をサポートしています。

Red Hat では、NVIDIA GPU のみに対して Remote Direct Memory Access (RDMA) をサポートしているため、イーサネットまたは InfiniBand ネットワーク経由で NVIDIA GPUDirect RDMA を使用して GPU 同士が直接通信できます。

NVIDIA GPU Operator をインストールしたら、アクセラレータプロファイルの使用の説明に従って、アクセラレータープロファイルを作成します。

重要

デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズを参照してください。

トップに戻る

第7章アクセラレーターの有効化

7.1. NVIDIA GPU の有効化
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第7章 アクセラレーターの有効化

7.1. NVIDIA GPU の有効化リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第7章アクセラレーターの有効化

7.1. NVIDIA GPU の有効化
リンクのコピー