7.2. Intel Gaudi AI アクセラレーターの統合


高性能ディープラーニングモデルを高速化するために、OpenShift AI に Intel Gaudi AI アクセラレーターを統合できます。このインテグレーションにより、データサイエンティストは、カスタム設定されたワークベンチインスタンスを通じて、Intel Gaudi AI アクセラレーターに関連付けられた Gaudi ライブラリーとソフトウェアを使用できるようになります。

Intel Gaudi AI アクセラレーターはディープラーニングワークロードに最適化されたパフォーマンスを提供します。最新の Gaudi 3 デバイスでは、トレーニング速度とエネルギー効率が大幅に向上しています。これらのアクセラレーターは、OpenShift AI 上で機械学習および AI アプリケーションを実行する企業に適しています。

OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、次の手順を完了する必要があります。

  1. OperatorHub から Intel Gaudi Base Operator の最新バージョンをインストールします。
  2. Intel Gaudi AI アクセラレーター用のカスタムワークベンチイメージを作成して設定します。Gaudi アクセラレーター用の事前ビルドされたワークベンチイメージは、OpenShift AI には含まれていません。
  3. 環境内の各 Intel Gaudi AI デバイスのアクセラレータープロファイルまたはハードウェアプロファイルを手動で定義および設定します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

Red Hat は、Intel Gaudi 3 までの Intel Gaudi デバイスをサポートしています。特に、Intel Gaudi 3 アクセラレーターには次のような利点があります。

  • トレーニングスループットの向上: 高度なテンソル処理コアとメモリー帯域幅の増加により、大規模なモデルのトレーニングに必要な時間を短縮します。
  • エネルギー効率: 高いパフォーマンスを維持しながら消費電力を抑え、大規模デプロイメントの運用コストを削減します。
  • スケーラブルなアーキテクチャー: 分散トレーニング設定を提供するために、複数のノードにわたってスケールします。

Amazon EC2 DL1 インスタンスで Intel Gaudi AI アクセラレーターを使用するには、OpenShift プラットフォームが EC2 DL1 インスタンスをサポートしている必要があります。アクセラレーターを有効にし、カスタムワークベンチイメージを作成し、アクセラレータープロファイルまたはハードウェアプロファイルを設定すると、ワークベンチインスタンスまたはモデルサービングで Intel Gaudi AI アクセラレーターを使用できるようになります。

デプロイメントに存在する Intel Gaudi AI アクセラレーターを特定するには、lspci ユーティリティーを使用します。詳細は、lspci(8)- Linux の man ページ を参照してください。

重要

lspci ユーティリティーによって示されるように、デプロイメント内に Intel Gaudi AI アクセラレーターが存在しても、デバイスが使用可能であることは保証されません。すべてのインストールおよび設定手順が正常に完了していることを確認する必要があります。

7.2.1. Intel Gaudi AI アクセラレーターの有効化

OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、Intel Gaudi Base Operator をデプロイして、環境を設定する必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。
  • Intel Gaudi アクセラレーターをインストールし、それが環境で検出されることを確認している。
  • Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
  • OpenShift コマンドラインインターフェイス (CLI) がインストールされている。

手順

  1. Intel Gaudi Base Operator OpenShift のインストール の説明に従って、最新バージョンの Intel Gaudi Base Operator をインストールします。
  2. OpenShift では、デフォルトで Pod あたりの PID 制限が 4096 に設定されます。複数の Gaudi アクセラレーターを使用する場合や、Ray で vLLM を使用する場合など、ワークロードにさらに多くの処理能力が必要な場合は、リソースが Resource temporarily unavailable というエラーを回避するために、Pod ごとの PID 制限を手動で増やす必要があります。このエラーは PID の枯渇により発生します。Red Hat はこの制限を 32768 に設定することを推奨していますが、20000 を超える値であれば十分です。

    1. 次のコマンドを実行してノードにラベルを付けます。

      oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
      Copy to Clipboard Toggle word wrap
    2. オプション: 影響を受けるノードへのワークロード分散を防ぐには、メンテナンスの準備中に、そのノードをスケジュール不可としてマークし、ドレインすることができます。詳細は、ノード上の Pod を退避させる方法 を参照してください。
    3. custom-kubelet-pidslimit.yaml KubeletConfig リソースファイルを作成します。

      oc create -f custom-kubelet-pidslimit.yaml
      Copy to Clipboard Toggle word wrap
    4. 次の YAML コードをファイルに入力します。PodPidsLimit 値を 32768 に設定します。

      apiVersion: machineconfiguration.openshift.io/v1
      kind: KubeletConfig
      metadata:
        name: custom-kubelet-pidslimit
      spec:
        kubeletConfig:
          PodPidsLimit: 32768
        machineConfigPoolSelector:
          matchLabels:
            custom-kubelet: set-pod-pid-limit-kubelet
      Copy to Clipboard Toggle word wrap
    5. 設定を適用します。

      oc apply -f custom-kubelet-pidslimit.yaml
      Copy to Clipboard Toggle word wrap

      この操作によりノードが再起動します。詳細は、ノードの再起動について を参照してください。

    6. オプション: 以前にノードをスケジュール不可とマークした場合は、ノードの再起動後に再度スケジュールを許可できます。
  3. カスタムワークベンチイメージの作成 の説明に従って、Intel Gaudi AI アクセラレーターのカスタムワークベンチイメージを作成します。
  4. Intel Gaudi Base Operator をインストールした後、アクセラレータープロファイルの操作 の説明に従ってアクセラレータープロファイルを作成します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

検証

Administrator パースペクティブから、Operators Installed Operators ページに移動します。次の Operator が表示されていることを確認します。

  • Intel Gaudi Base Operator
  • Node Feature Discovery (NFD)
  • カーネルモジュール管理 (KMM)
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat