7.3. AMD GPU の統合


AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。

AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。

  • ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
  • AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。

7.3.1. クラスター上の AMD GPU の可用性を確認する

AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するかを確認できます。lspcioc などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。

前提条件

  • OpenShift クラスターの管理権限を持っている。
  • AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
  • OpenShift CLI (oc) にアクセスでき、ノードへのターミナルアクセスを持っている。

手順

  1. OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。

    1. クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。

      oc get nodes
      Copy to Clipboard Toggle word wrap
    2. AMD GPU が存在すると予想されるノードの名前をメモします。
    3. ノードに対して describe を実行してリソース割り当てを確認します。

      oc describe node <node_name>
      Copy to Clipboard Toggle word wrap
    4. 出力で、Capacity および Allocatable セクションを見つけて、amd.com/gpu がリストされていることを確認します。以下に例を示します。

      Capacity:
        amd.com/gpu:  1
      Allocatable:
        amd.com/gpu:  1
      Copy to Clipboard Toggle word wrap
  2. lspci コマンドを使用して AMD GPU デバイスを確認します。

    1. ノードにログインします。

      oc debug node/<node_name>
      chroot /host
      Copy to Clipboard Toggle word wrap
    2. lspci コマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。

      lspci | grep -E "MI210|MI250|MI300"
      Copy to Clipboard Toggle word wrap
    3. 出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。

      03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
      Copy to Clipboard Toggle word wrap
  3. オプション: ノードに ROCm スタックがインストールされている場合は、rocminfo コマンドを使用します。

    rocminfo
    Copy to Clipboard Toggle word wrap
    1. ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。

検証

  • oc describe node <node_name> コマンドは、Capacity および Allocatable の下に amd.com/gpu をリストします。
  • lspci コマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。
  • オプション: rocminfo ツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。

7.3.2. AMD GPU の有効化

OpenShift AI で AMD GPU を使用する前に、必要な依存関係をインストールし、AMD GPU Operator をデプロイし、環境を設定する必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。
  • AMD GPU をインストールし、それが環境で検出されることを確認した。
  • Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。

手順

  1. Install AMD GPU Operator on OpenShift の説明に従って、最新バージョンの AMD GPU Operator をインストールします。
  2. AMD GPU Operator をインストールした後、Configure AMD drivers for the GPU Operator の説明に従って、Operator に必要な AMD ドライバーを設定します。
注記

または、Red Hat Catalog から AMD GPU Operator をインストールすることもできます。詳細は、Red Hat Catalog から AMD GPU Operator をインストールする を参照してください。

  1. AMD GPU Operator をインストールしたら、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。

+

重要

デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

検証

Administrator パースペクティブから、Operators Installed Operators ページに移動します。次の Operator が表示されていることを確認します。

  • AMD GPU Operator
  • Node Feature Discovery (NFD)
  • カーネルモジュール管理 (KMM)
注記

ドライバーを適切にインストールおよび設定するために、必ずすべてのステップを実行してください。インストールや設定が正しくないと、AMD GPU が認識されなかったり、正常に機能しない可能性があります。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat