ホーム
製品
Red Hat OpenShift AI Cloud Service
1
OpenShift AI の管理
7.2. Intel Gaudi AI アクセラレーターの統合

7.2. Intel Gaudi AI アクセラレーターの統合

高性能ディープラーニングモデルを高速化するために、OpenShift AI に Intel Gaudi AI アクセラレーターを統合できます。このインテグレーションにより、データサイエンティストは、カスタム設定されたワークベンチインスタンスを通じて、Intel Gaudi AI アクセラレーターに関連付けられた Gaudi ライブラリーとソフトウェアを使用できるようになります。

Intel Gaudi AI アクセラレーターはディープラーニングワークロードに最適化されたパフォーマンスを提供します。最新の Gaudi 3 デバイスでは、トレーニング速度とエネルギー効率が大幅に向上しています。これらのアクセラレーターは、OpenShift AI 上で機械学習および AI アプリケーションを実行する企業に適しています。

OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、次の手順を完了する必要があります。

OperatorHub から Intel Gaudi Base Operator の最新バージョンをインストールします。
Intel Gaudi AI アクセラレーター用のカスタムワークベンチイメージを作成して設定します。Gaudi アクセラレーター用の事前ビルドされたワークベンチイメージは、OpenShift AI には含まれていません。
環境内の各 Intel Gaudi AI デバイスのアクセラレータープロファイルまたはハードウェアプロファイルを手動で定義および設定します。
重要
デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズを参照してください。

Red Hat は、Intel Gaudi 3 までの Intel Gaudi デバイスをサポートしています。特に、Intel Gaudi 3 アクセラレーターには次のような利点があります。

トレーニングスループットの向上: 高度なテンソル処理コアとメモリー帯域幅の増加により、大規模なモデルのトレーニングに必要な時間を短縮します。
エネルギー効率: 高いパフォーマンスを維持しながら消費電力を抑え、大規模デプロイメントの運用コストを削減します。
スケーラブルなアーキテクチャー: 分散トレーニング設定を提供するために、複数のノードにわたってスケールします。

Amazon EC2 DL1 インスタンスで Intel Gaudi AI アクセラレーターを使用するには、OpenShift プラットフォームが EC2 DL1 インスタンスをサポートしている必要があります。アクセラレーターを有効にし、カスタムワークベンチイメージを作成し、アクセラレータープロファイルまたはハードウェアプロファイルを設定すると、ワークベンチインスタンスまたはモデルサービングで Intel Gaudi AI アクセラレーターを使用できるようになります。

デプロイメントに存在する Intel Gaudi AI アクセラレーターを特定するには、lspci ユーティリティーを使用します。詳細は、lspci(8)- Linux の man ページを参照してください。

重要

lspci ユーティリティーによって示されるように、デプロイメント内に Intel Gaudi AI アクセラレーターが存在しても、デバイスが使用可能であることは保証されません。すべてのインストールおよび設定手順が正常に完了していることを確認する必要があります。

7.2.1. Intel Gaudi AI アクセラレーターの有効化
リンクのコピー

OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、Intel Gaudi Base Operator をデプロイして、環境を設定する必要があります。

前提条件

OpenShift にログインしている。
OpenShift の cluster-admin ロールを持っている。
Intel Gaudi アクセラレーターをインストールし、それが環境で検出されることを確認している。
Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
OpenShift コマンドラインインターフェイス (CLI) がインストールされている。

手順

Intel Gaudi Base Operator OpenShift のインストールの説明に従って、最新バージョンの Intel Gaudi Base Operator をインストールします。
OpenShift では、デフォルトで Pod あたりの PID 制限が 4096 に設定されます。複数の Gaudi アクセラレーターを使用する場合や、Ray で vLLM を使用する場合など、ワークロードにさらに多くの処理能力が必要な場合は、リソースが Resource temporarily unavailable というエラーを回避するために、Pod ごとの PID 制限を手動で増やす必要があります。このエラーは PID の枯渇により発生します。Red Hat はこの制限を 32768 に設定することを推奨していますが、20000 を超える値であれば十分です。
1. 次のコマンドを実行してノードにラベルを付けます。
  oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
  Copy to Clipboard Toggle word wrap
2. オプション: 影響を受けるノードへのワークロード分散を防ぐには、メンテナンスの準備中に、そのノードをスケジュール不可としてマークし、ドレインすることができます。詳細は、ノード上の Pod を退避させる方法を参照してください。
3. custom-kubelet-pidslimit.yaml KubeletConfig リソースファイルを作成します。
  oc create -f custom-kubelet-pidslimit.yaml
  Copy to Clipboard Toggle word wrap
4. 次の YAML コードをファイルに入力します。PodPidsLimit 値を 32768 に設定します。
  apiVersion: machineconfiguration.openshift.io/v1 kind: KubeletConfig metadata: name: custom-kubelet-pidslimit spec: kubeletConfig: PodPidsLimit: 32768 machineConfigPoolSelector: matchLabels: custom-kubelet: set-pod-pid-limit-kubelet
  Copy to Clipboard Toggle word wrap
5. 設定を適用します。
  oc apply -f custom-kubelet-pidslimit.yaml
  Copy to Clipboard Toggle word wrap
  この操作によりノードが再起動します。詳細は、ノードの再起動についてを参照してください。
6. オプション: 以前にノードをスケジュール不可とマークした場合は、ノードの再起動後に再度スケジュールを許可できます。
カスタムワークベンチイメージの作成の説明に従って、Intel Gaudi AI アクセラレーターのカスタムワークベンチイメージを作成します。
Intel Gaudi Base Operator をインストールした後、アクセラレータープロファイルの操作の説明に従ってアクセラレータープロファイルを作成します。
重要
デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズを参照してください。

検証

Administrator パースペクティブから、Operators Installed Operators ページに移動します。次の Operator が表示されていることを確認します。

Intel Gaudi Base Operator
Node Feature Discovery (NFD)
カーネルモジュール管理 (KMM)

トップに戻る

7.2. Intel Gaudi AI アクセラレーターの統合

7.2.1. Intel Gaudi AI アクセラレーターの有効化
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.2. Intel Gaudi AI アクセラレーターの統合

7.2.1. Intel Gaudi AI アクセラレーターの有効化リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.2.1. Intel Gaudi AI アクセラレーターの有効化
リンクのコピー