7.2. Intel Gaudi AI アクセラレーターの統合
高性能ディープラーニングモデルを高速化するために、OpenShift AI に Intel Gaudi AI アクセラレーターを統合できます。このインテグレーションにより、データサイエンティストは、カスタム設定されたワークベンチインスタンスを通じて、Intel Gaudi AI アクセラレーターに関連付けられた Gaudi ライブラリーとソフトウェアを使用できるようになります。
Intel Gaudi AI アクセラレーターはディープラーニングワークロードに最適化されたパフォーマンスを提供します。最新の Gaudi 3 デバイスでは、トレーニング速度とエネルギー効率が大幅に向上しています。これらのアクセラレーターは、OpenShift AI 上で機械学習および AI アプリケーションを実行する企業に適しています。
OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、次の手順を完了する必要があります。
- OperatorHub から Intel Gaudi Base Operator の最新バージョンをインストールします。
- Intel Gaudi AI アクセラレーター用のカスタムワークベンチイメージを作成して設定します。Gaudi アクセラレーター用の事前ビルドされたワークベンチイメージは、OpenShift AI には含まれていません。
環境内の各 Intel Gaudi AI デバイスのアクセラレータープロファイルまたはハードウェアプロファイルを手動で定義および設定します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings
Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
Red Hat は、Intel Gaudi 3 までの Intel Gaudi デバイスをサポートしています。特に、Intel Gaudi 3 アクセラレーターには次のような利点があります。
- トレーニングスループットの向上: 高度なテンソル処理コアとメモリー帯域幅の増加により、大規模なモデルのトレーニングに必要な時間を短縮します。
- エネルギー効率: 高いパフォーマンスを維持しながら消費電力を抑え、大規模デプロイメントの運用コストを削減します。
- スケーラブルなアーキテクチャー: 分散トレーニング設定を提供するために、複数のノードにわたってスケールします。
Amazon EC2 DL1 インスタンスで Intel Gaudi AI アクセラレーターを使用するには、OpenShift プラットフォームが EC2 DL1 インスタンスをサポートしている必要があります。アクセラレーターを有効にし、カスタムワークベンチイメージを作成し、アクセラレータープロファイルまたはハードウェアプロファイルを設定すると、ワークベンチインスタンスまたはモデルサービングで Intel Gaudi AI アクセラレーターを使用できるようになります。
デプロイメントに存在する Intel Gaudi AI アクセラレーターを特定するには、lspci ユーティリティーを使用します。詳細は、lspci(8)- Linux の man ページ を参照してください。
lspci ユーティリティーによって示されるように、デプロイメント内に Intel Gaudi AI アクセラレーターが存在しても、デバイスが使用可能であることは保証されません。すべてのインストールおよび設定手順が正常に完了していることを確認する必要があります。
7.2.1. Intel Gaudi AI アクセラレーターの有効化 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、Intel Gaudi Base Operator をデプロイして、環境を設定する必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-adminロールを持っている。 - Intel Gaudi アクセラレーターをインストールし、それが環境で検出されることを確認している。
- Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
- OpenShift コマンドラインインターフェイス (CLI) がインストールされている。
手順
- Intel Gaudi Base Operator OpenShift のインストール の説明に従って、最新バージョンの Intel Gaudi Base Operator をインストールします。
OpenShift では、デフォルトで Pod あたりの PID 制限が 4096 に設定されます。複数の Gaudi アクセラレーターを使用する場合や、Ray で vLLM を使用する場合など、ワークロードにさらに多くの処理能力が必要な場合は、リソースが
Resource temporarily unavailableというエラーを回避するために、Pod ごとの PID 制限を手動で増やす必要があります。このエラーは PID の枯渇により発生します。Red Hat はこの制限を 32768 に設定することを推奨していますが、20000 を超える値であれば十分です。次のコマンドを実行してノードにラベルを付けます。
oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubeletCopy to Clipboard Copied! Toggle word wrap Toggle overflow - オプション: 影響を受けるノードへのワークロード分散を防ぐには、メンテナンスの準備中に、そのノードをスケジュール不可としてマークし、ドレインすることができます。詳細は、ノード上の Pod を退避させる方法 を参照してください。
custom-kubelet-pidslimit.yamlKubeletConfig リソースファイルを作成します。oc create -f custom-kubelet-pidslimit.yaml
oc create -f custom-kubelet-pidslimit.yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow 次の YAML コードをファイルに入力します。
PodPidsLimit値を 32768 に設定します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 設定を適用します。
oc apply -f custom-kubelet-pidslimit.yaml
oc apply -f custom-kubelet-pidslimit.yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow この操作によりノードが再起動します。詳細は、ノードの再起動について を参照してください。
- オプション: 以前にノードをスケジュール不可とマークした場合は、ノードの再起動後に再度スケジュールを許可できます。
- カスタムワークベンチイメージの作成 の説明に従って、Intel Gaudi AI アクセラレーターのカスタムワークベンチイメージを作成します。
Intel Gaudi Base Operator をインストールした後、アクセラレータープロファイルの操作 の説明に従ってアクセラレータープロファイルを作成します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings
Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
検証
Administrator パースペクティブから、Operators
- Intel Gaudi Base Operator
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)