7.3. AMD GPU の統合
AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。
AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。
- ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
- AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。
7.3.1. クラスター上の AMD GPU の可用性を確認する
AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するか確認できます。lspci
や oc
などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。
前提条件
- OpenShift クラスターの管理権限を持っている。
- AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
-
OpenShift CLI (
oc
) にアクセスでき、ノードへのターミナルアクセスを持っている。
手順
OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。
クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。
oc get nodes
- AMD GPU が存在すると予想されるノードの名前をメモします。
ノードに対して describe を実行してリソース割り当てを確認します。
oc describe node <node_name>
出力で、Capacity および Allocatable セクションを見つけて、
amd.com/gpu
がリストされていることを確認します。以下に例を示します。Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
lspci
コマンドを使用して AMD GPU デバイスを確認します。ノードにログインします。
oc debug node/<node_name> chroot /host
lspci
コマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。lspci | grep -E "MI210|MI250|MI300"
出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
オプション: ノードに ROCm スタックがインストールされている場合は、
rocminfo
コマンドを使用します。rocminfo
- ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。
検証
-
oc describe node <node_name>
コマンドは、Capacity および Allocatable の下にamd.com/gpu
をリストします。 -
lspci
コマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。 -
オプション:
rocminfo
ツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。
7.3.2. AMD GPU の有効化
OpenShift AI で AMD GPU を使用する前に、必要な依存関係をインストールし、AMD GPU Operator をデプロイし、環境を設定する必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-admin
ロールを持っている。 - AMD GPU をインストールし、それが環境で検出されることを確認した。
- Amazon Web Services (AWS) 上で実行している場合、OpenShift 環境は EC2 DL1 インスタンスをサポートします。
手順
- Install AMD GPU Operator on OpenShift の説明に従って、最新バージョンの AMD GPU Operator をインストールします。
- AMD GPU Operator をインストールした後、Configure AMD drivers for the GPU Operator の説明に従って、Operator に必要な AMD ドライバーを設定します。
または、Red Hat Catalog から AMD GPU Operator をインストールすることもできます。詳細は、Red Hat Catalog から AMD GPU Operator をインストールする を参照してください。
- AMD GPU Operator をインストールしたら、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。
検証
Administrator パースペクティブから、Operators
- AMD GPU Operator
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
ドライバーを適切にインストールおよび設定するために、必ずすべてのステップを実行してください。インストールや設定が正しくないと、AMD GPU が認識されなかったり、正常に機能しない可能性があります。