7.3. AMD GPU の統合

AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。

AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。

ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。

7.3.1. クラスター上の AMD GPU の可用性を確認する

AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するか確認できます。lspci や oc などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。

前提条件

OpenShift クラスターの管理権限を持っている。
AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
OpenShift CLI (oc) にアクセスでき、ノードへのターミナルアクセスを持っている。

手順

OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。
1. クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。
```
oc get nodes
```
2. AMD GPU が存在すると予想されるノードの名前をメモします。
3. ノードに対して describe を実行してリソース割り当てを確認します。
```
oc describe node <node_name>
```
4. 出力で、Capacity および Allocatable セクションを見つけて、amd.com/gpu がリストされていることを確認します。以下に例を示します。
```
Capacity:
  amd.com/gpu:  1
Allocatable:
  amd.com/gpu:  1
```
lspci コマンドを使用して AMD GPU デバイスを確認します。
1. ノードにログインします。
```
oc debug node/<node_name>
chroot /host
```
2. lspci コマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。
```
lspci | grep -E "MI210|MI250|MI300"
```
3. 出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。
```
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
```
オプション: ノードに ROCm スタックがインストールされている場合は、rocminfo コマンドを使用します。
```
rocminfo
```
1. ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。

検証

oc describe node <node_name> コマンドは、Capacity および Allocatable の下に amd.com/gpu をリストします。
lspci コマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。
オプション: rocminfo ツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。

関連情報

AMD GPU Operator GitHub Repository

7.3.2. AMD GPU の有効化

OpenShift AI で AMD GPU を使用する前に、必要な依存関係をインストールし、AMD GPU Operator をデプロイし、環境を設定する必要があります。

前提条件

OpenShift にログインしている。
OpenShift の cluster-admin ロールを持っている。
AMD GPU をインストールし、それが環境で検出されることを確認した。
Amazon Web Services (AWS) 上で実行している場合、OpenShift 環境は EC2 DL1 インスタンスをサポートします。

手順

Install AMD GPU Operator on OpenShift の説明に従って、最新バージョンの AMD GPU Operator をインストールします。
AMD GPU Operator をインストールした後、Configure AMD drivers for the GPU Operator の説明に従って、Operator に必要な AMD ドライバーを設定します。

注記

または、Red Hat Catalog から AMD GPU Operator をインストールすることもできます。詳細は、Red Hat Catalog から AMD GPU Operator をインストールするを参照してください。

AMD GPU Operator をインストールしたら、アクセラレータープロファイルの使用の説明に従って、アクセラレータープロファイルを作成します。

検証

Administrator パースペクティブから、Operators Installed Operators ページに移動します。次の Operator が表示されていることを確認します。

AMD GPU Operator
Node Feature Discovery (NFD)
カーネルモジュール管理 (KMM)

注記

ドライバーを適切にインストールおよび設定するために、必ずすべてのステップを実行してください。インストールや設定が正しくないと、AMD GPU が認識されなかったり、正常に機能しない可能性があります。

7.3. AMD GPU の統合

7.3.1. クラスター上の AMD GPU の可用性を確認する

7.3.2. AMD GPU の有効化

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Red Hat legal and privacy links

Red Hat legal and privacy links