7.3. AMD GPU の統合
AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。
AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。
- ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
- AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。
7.3.1. クラスター上の AMD GPU の可用性を確認する リンクのコピーリンクがクリップボードにコピーされました!
AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するかを確認できます。lspci や oc などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。
前提条件
- OpenShift クラスターの管理権限を持っている。
- AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
-
OpenShift CLI (
oc) にアクセスでき、ノードへのターミナルアクセスを持っている。
手順
OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。
クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。
oc get nodes
oc get nodesCopy to Clipboard Copied! Toggle word wrap Toggle overflow - AMD GPU が存在すると予想されるノードの名前をメモします。
ノードに対して describe を実行してリソース割り当てを確認します。
oc describe node <node_name>
oc describe node <node_name>Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力で、Capacity および Allocatable セクションを見つけて、
amd.com/gpuがリストされていることを確認します。以下に例を示します。Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1Copy to Clipboard Copied! Toggle word wrap Toggle overflow
lspciコマンドを使用して AMD GPU デバイスを確認します。ノードにログインします。
oc debug node/<node_name> chroot /host
oc debug node/<node_name> chroot /hostCopy to Clipboard Copied! Toggle word wrap Toggle overflow lspciコマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。lspci | grep -E "MI210|MI250|MI300"
lspci | grep -E "MI210|MI250|MI300"Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210Copy to Clipboard Copied! Toggle word wrap Toggle overflow
オプション: ノードに ROCm スタックがインストールされている場合は、
rocminfoコマンドを使用します。rocminfo
rocminfoCopy to Clipboard Copied! Toggle word wrap Toggle overflow - ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。
検証
-
oc describe node <node_name>コマンドは、Capacity および Allocatable の下にamd.com/gpuをリストします。 -
lspciコマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。 -
オプション:
rocminfoツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。
7.3.2. AMD GPU の有効化 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI で AMD GPU を使用する前に、必要な依存関係をインストールし、AMD GPU Operator をデプロイし、環境を設定する必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-adminロールを持っている。 - AMD GPU をインストールし、それが環境で検出されることを確認した。
- Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
手順
- Install AMD GPU Operator on OpenShift の説明に従って、最新バージョンの AMD GPU Operator をインストールします。
AMD GPU Operator をインストールした後、Configure AMD drivers for the GPU Operator の説明に従って、Operator に必要な AMD ドライバーを設定します。
注記または、Red Hat Catalog から AMD GPU Operator をインストールすることもできます。詳細は、Red Hat Catalog から AMD GPU Operator をインストールする を参照してください。
AMD GPU Operator をインストールしたら、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings
Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
検証
Administrator パースペクティブから、Operators
- AMD GPU Operator
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
ドライバーを適切にインストールおよび設定するために、必ずすべてのステップを実行してください。インストールや設定が正しくないと、AMD GPU が認識されなかったり、正常に機能しない可能性があります。