第5章 AMD GPU の統合
AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。
AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。
- ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
- AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。
5.1. クラスター上の AMD GPU の可用性を確認する リンクのコピーリンクがクリップボードにコピーされました!
AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するかを確認できます。lspci
や oc
などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。
前提条件
- OpenShift クラスターの管理権限を持っている。
- AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
-
OpenShift CLI (
oc
) にアクセスでき、ノードへのターミナルアクセスを持っている。
手順
OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。
クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。
oc get nodes
oc get nodes
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - AMD GPU が存在すると予想されるノードの名前をメモします。
ノードに対して describe を実行してリソース割り当てを確認します。
oc describe node <node_name>
oc describe node <node_name>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力で、Capacity および Allocatable セクションを見つけて、
amd.com/gpu
がリストされていることを確認します。以下に例を示します。Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
lspci
コマンドを使用して AMD GPU デバイスを確認します。ノードにログインします。
oc debug node/<node_name> chroot /host
oc debug node/<node_name> chroot /host
Copy to Clipboard Copied! Toggle word wrap Toggle overflow lspci
コマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。lspci | grep -E "MI210|MI250|MI300"
lspci | grep -E "MI210|MI250|MI300"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
オプション: ノードに ROCm スタックがインストールされている場合は、
rocminfo
コマンドを使用します。rocminfo
rocminfo
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。
検証
-
oc describe node <node_name>
コマンドは、Capacity および Allocatable の下にamd.com/gpu
をリストします。 -
lspci
コマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。 -
オプション:
rocminfo
ツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。