3.3. アクセラレーターの概要
大規模なデータセットを扱う場合は、アクセラレーターを使用して OpenShift AI のデータサイエンスモデルのパフォーマンスを最適化できます。アクセラレーターを使用すると、作業を拡張し、待ち時間を短縮し、生産性を向上させることができます。OpenShift AI のアクセラレーターを使用して、データサイエンティストによる次のタスクを支援できます。
- 自然言語処理 (NLP)
- 推論
- ディープニュラルネットワークのトレーニング
- データクレンジングとデータ処理
OpenShift AI は次のアクセラレーターをサポートしています。
NVIDIA グラフィックスプロセッシングユニット (GPU)
- モデルで計算負荷の高いワークロードを使用するには、OpenShift AI で NVIDIA グラフィックスプロセッシングユニット (GPU) を有効にしてください。
- OpenShift で GPU を有効にするには、NVIDIA GPU Operator をインストールする必要があります。
Intel Gaudi AI アクセラレーター
- Intel は、ディープラーニングワークロード向けのハードウェアアクセラレーターを提供しています。ノートブックから利用可能な Intel Gaudi AI アクセラレーターに関連付けられた Habana ライブラリーとソフトウェアを使用できます。
- OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、デプロイメント内の HabanaAI ワークベンチイメージの Habana バージョンと一致する、必要な依存関係と HabanaAI Operator のバージョンをインストールする必要があります。OpenShift 環境で Intel Gaudi AI アクセラレーターを有効にする方法の詳細は、HabanaAI Operator v1.10 for OpenShift および HabanaAI Operator v1.13 for OpenShift を参照してください。
- Intel Gaudi AI アクセラレーターは、オンプレミスで、または AWS インスタンス上の AWS DL1 コンピュートノードで有効にできます。
OpenShift AI でアクセラレーターを使用するには、OpenShift インスタンスに関連するアクセラレータープロファイルが含まれている必要があります。これまでデプロイメントしたことのないアクセラレーターの場合は、コンテキスト内でアクセラレーターのアクセラレータープロファイルを設定する必要があります。OpenShift AI ダッシュボードの Settings
関連情報
3.3.1. OpenShift AI での GPU サポートの有効化
オプションで、データサイエンティストがモデルで計算量の多いワークロードを利用できるようにするために、OpenShift AI でグラフィックスプロセッシングユニット (GPU) を有効にできます。
OpenShift AI を非接続のセルフマネージド環境で使用する場合は、OpenShift AI での GPU サポートの有効化 を参照してください。
前提条件
- OpenShift クラスターにログインしている。
-
OpenShift クラスターの
cluster-admin
ロールを持っている。
手順
- OpenShift クラスターで GPU サポートを有効にするには、NVIDIA ドキュメントの Red Hat OpenShift Container Platform 上の NVIDIA GPU Operator の手順に従ってください。
migration-gpu-status ConfigMap を削除します。
- OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
- Project を All Projects または redhat-ods-applications に設定して、適切な ConfigMap が表示されるようにします。
- migration-gpu-status ConfigMap を検索します。
アクションメニュー (⋮) をクリックし、リストから Delete ConfigMap を選択します。
Delete ConfigMap ダイアログが表示されます。
- ダイアログで、正しい ConfigMap が削除されていることを確認します。
- Delete をクリックします。
ダッシュボードの replicaset を再起動します。
- OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
-
Workloads
Deployments をクリックします。 - Project を All Projects または redhat-ods-applications に設定して、適切なデプロイメントを確認できるようにします。
- rhods-dashboard デプロイメントを検索します。
- アクションメニュー (⋮) をクリックし、リストから Restart Rollout を選択します。
- ロールアウト内のすべての Pod が完全に再起動したことが Status 列に示されるまで待ちます。
検証
-
NVIDIA GPU Operator は、OpenShift Web コンソールの Operators
Installed Operators ページに表示されます。 -
リセットされた migration-gpu-status インスタンスは、
AcceleratorProfile
カスタムリソース定義 (CRD) 詳細ページの Instances タブにあります。
NVIDIA GPU Operator のインストール後、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。
3.3.2. Intel Gaudi AI アクセラレーターの有効化
OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、HabanaAI Operator をデプロイする必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-admin
ロールを持っている。
手順
- OpenShift AI で Intel Gaudi AI アクセラレーターを有効にするには、OpenShift の HabanaAI Operator の手順 に従います。
OpenShift AI ダッシュボードから、Settings
Accelerator profiles をクリックします。 Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。既存のアクセラレータープロファイルを有効または無効にするには、関連するアクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。
Create accelerator profile をクリックします。
Create accelerator profile ダイアログが開きます。
- Name フィールドに、Intel Gaudi AI アクセラレーターの名前を入力します。
-
Identifier フィールドに、Intel Gaudi AI アクセラレーターを識別する一意の文字列を入力します (例:
habana.ai/gaudi)
。 - オプション: 説明 フィールドに、Intel Gaudi AI アクセラレーターの説明を入力します。
- Intel Gaudi AI アクセラレーターのプロファイルを作成後すぐに有効または無効にするには、Enable 列のトグルをクリックします。
オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。
Add toleration をクリックします。
Add toleration ダイアログが開きます。
Operator リストから、次のオプションのいずれかを選択します。
- Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
- Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
Effect リストから、次のオプションのいずれかを選択します。
- None
- NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
- PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
- NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
-
Key フィールドに、toleration キー
habana.ai/gaudi
を入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。 - Value フィールドに toleration 値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。
- Forever - Pod はノードに永続的にバインドされたままになります。
- Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
- Add をクリックします。
- Create accelerator profile をクリックします。
検証
Administrator パースペクティブから、次の Operator が Operators
Installed Operators ページに表示されます。 - HabanaAI
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
- Accelerator リストには Start a notebook server ページの Intel Gaudi AI アクセラレーターが表示されます。アクセラレーターを選択すると、Number of accelerators フィールドが表示され、これを使用してノートブックサーバーのアクセラレーターの数を選択できます。
- アクセラレータープロファイルが Accelerator profiles ページに表示されます。
-
アクセラレータープロファイルは、
AcceleratorProfile
カスタムリソース定義 (CRD) の詳細ページの インスタンス タブに表示されます。