3.3. アクセラレーターの概要


大規模なデータセットを扱う場合は、アクセラレーターを使用して OpenShift AI のデータサイエンスモデルのパフォーマンスを最適化できます。アクセラレーターを使用すると、作業を拡張し、待ち時間を短縮し、生産性を向上させることができます。OpenShift AI のアクセラレーターを使用して、データサイエンティストによる次のタスクを支援できます。

  • 自然言語処理 (NLP)
  • 推論
  • ディープニュラルネットワークのトレーニング
  • データクレンジングとデータ処理

OpenShift AI は次のアクセラレーターをサポートしています。

  • NVIDIA グラフィックスプロセッシングユニット (GPU)

    • モデルで計算負荷の高いワークロードを使用するには、OpenShift AI で NVIDIA グラフィックスプロセッシングユニット (GPU) を有効にしてください。
    • OpenShift で GPU を有効にするには、NVIDIA GPU Operator をインストールする必要があります。
  • Intel Gaudi AI アクセラレーター

    • Intel は、ディープラーニングワークロード向けのハードウェアアクセラレーターを提供しています。ノートブックから利用可能な Intel Gaudi AI アクセラレーターに関連付けられた Habana ライブラリーとソフトウェアを使用できます。
    • OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、デプロイメント内の HabanaAI ワークベンチイメージの Habana バージョンと一致する、必要な依存関係と HabanaAI Operator のバージョンをインストールする必要があります。OpenShift 環境で Intel Gaudi AI アクセラレーターを有効にする方法の詳細は、HabanaAI Operator v1.10 for OpenShift および HabanaAI Operator v1.13 for OpenShift を参照してください。
    • Intel Gaudi AI アクセラレーターは、オンプレミスで、または AWS インスタンス上の AWS DL1 コンピュートノードで有効にできます。

OpenShift AI でアクセラレーターを使用するには、OpenShift インスタンスに関連するアクセラレータープロファイルが含まれている必要があります。これまでデプロイメントしたことのないアクセラレーターの場合は、コンテキスト内でアクセラレーターのアクセラレータープロファイルを設定する必要があります。OpenShift AI ダッシュボードの Settings Accelerator profiles ページから、アクセラレータープロファイルを作成できます。デプロイメントに、関連付けられたアクセラレータープロファイルがすでに設定されている既存のアクセラレーターが含まれている場合、OpenShift AI の最新バージョンにアップグレードした後、アクセラレータープロファイルが自動的に作成されます。

3.3.1. OpenShift AI での GPU サポートの有効化

オプションで、データサイエンティストがモデルで計算量の多いワークロードを利用できるようにするために、OpenShift AI でグラフィックスプロセッシングユニット (GPU) を有効にできます。

重要

OpenShift AI を非接続のセルフマネージド環境で使用する場合は、OpenShift AI での GPU サポートの有効化 を参照してください。

前提条件

  • OpenShift クラスターにログインしている。
  • OpenShift クラスターの cluster-admin ロールを持っている。

手順

  1. OpenShift クラスターで GPU サポートを有効にするには、NVIDIA ドキュメントの Red Hat OpenShift Container Platform 上の NVIDIA GPU Operator の手順に従ってください。
  2. migration-gpu-status ConfigMap を削除します。

    1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
    2. ProjectAll Projects または redhat-ods-applications に設定して、適切な ConfigMap が表示されるようにします。
    3. migration-gpu-status ConfigMap を検索します。
    4. アクションメニュー (⋮) をクリックし、リストから Delete ConfigMap を選択します。

      Delete ConfigMap ダイアログが表示されます。

    5. ダイアログで、正しい ConfigMap が削除されていることを確認します。
    6. Delete をクリックします。
  3. ダッシュボードの replicaset を再起動します。

    1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
    2. Workloads Deployments をクリックします。
    3. ProjectAll Projects または redhat-ods-applications に設定して、適切なデプロイメントを確認できるようにします。
    4. rhods-dashboard デプロイメントを検索します。
    5. アクションメニュー (⋮) をクリックし、リストから Restart Rollout を選択します。
    6. ロールアウト内のすべての Pod が完全に再起動したことが Status 列に示されるまで待ちます。

検証

  • NVIDIA GPU Operator は、OpenShift Web コンソールの Operators Installed Operators ページに表示されます。
  • リセットされた migration-gpu-status インスタンスは、AcceleratorProfile カスタムリソース定義 (CRD) 詳細ページの Instances タブにあります。

NVIDIA GPU Operator のインストール後、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。

3.3.2. Intel Gaudi AI アクセラレーターの有効化

OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、HabanaAI Operator をデプロイする必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。

手順

  1. OpenShift AI で Intel Gaudi AI アクセラレーターを有効にするには、OpenShift の HabanaAI Operator の手順 に従います。
  2. OpenShift AI ダッシュボードから、Settings Accelerator profiles をクリックします。

    Accelerator profiles ページが表示され、既存のアクセラレータープロファイルが表示されます。既存のアクセラレータープロファイルを有効または無効にするには、関連するアクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。

  3. Create accelerator profile をクリックします。

    Create accelerator profile ダイアログが開きます。

  4. Name フィールドに、Intel Gaudi AI アクセラレーターの名前を入力します。
  5. Identifier フィールドに、Intel Gaudi AI アクセラレーターを識別する一意の文字列を入力します (例: habana.ai/gaudi)
  6. オプション: 説明 フィールドに、Intel Gaudi AI アクセラレーターの説明を入力します。
  7. Intel Gaudi AI アクセラレーターのプロファイルを作成後すぐに有効または無効にするには、Enable 列のトグルをクリックします。
  8. オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。

    1. Add toleration をクリックします。

      Add toleration ダイアログが開きます。

    2. Operator リストから、次のオプションのいずれかを選択します。

      • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
      • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
    3. Effect リストから、次のオプションのいずれかを選択します。

      • None
      • NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
      • PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
      • NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
    4. Key フィールドに、toleration キー habana.ai/gaudi を入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    5. Value フィールドに toleration 値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

      • Forever - Pod はノードに永続的にバインドされたままになります。
      • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    7. Add をクリックします。
  9. Create accelerator profile をクリックします。

検証

  • Administrator パースペクティブから、次の Operator が Operators Installed Operators ページに表示されます。

    • HabanaAI
    • Node Feature Discovery (NFD)
    • カーネルモジュール管理 (KMM)
  • Accelerator リストには Start a notebook server ページの Intel Gaudi AI アクセラレーターが表示されます。アクセラレーターを選択すると、Number of accelerators フィールドが表示され、これを使用してノートブックサーバーのアクセラレーターの数を選択できます。
  • アクセラレータープロファイルが Accelerator profiles ページに表示されます。
  • アクセラレータープロファイルは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの インスタンス タブに表示されます。
Red Hat logoGithubRedditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

© 2024 Red Hat, Inc.