アクセラレーターの使用


Red Hat OpenShift AI Cloud Service 1

Red Hat OpenShift AI Cloud Service のアクセラレーターの使用

概要

アクセラレーターを使用して、エンドツーエンドのデータサイエンスワークフローのパフォーマンスを最適化します。

はじめに

NVIDIA GPU、AMD GPU、Intel Gaudi AI アクセラレーターなどのアクセラレーターを使用して、エンドツーエンドのデータサイエンスワークフローのパフォーマンスを最適化します。

第1章 アクセラレーターの概要

大規模なデータセットを扱う場合は、アクセラレーターを使用して OpenShift AI のデータサイエンスモデルのパフォーマンスを最適化できます。アクセラレーターを使用すると、作業を拡張し、待ち時間を短縮し、生産性を向上させることができます。OpenShift AI のアクセラレーターを使用して、データサイエンティストによる次のタスクを支援できます。

  • 自然言語処理 (NLP)
  • 推論
  • ディープニュラルネットワークのトレーニング
  • データクレンジングとデータ処理

OpenShift AI では次のアクセラレーターを使用できます。

  • NVIDIA グラフィックスプロセッシングユニット (GPU)

    • モデルで計算負荷の高いワークロードを使用するには、OpenShift AI で NVIDIA グラフィックスプロセッシングユニット (GPU) を有効にしてください。
    • OpenShift で NVIDIA GPU を有効にするには、NVIDIA GPU Operator をインストールする必要があります。
  • AMD グラフィックスプロセッシングユニット (GPU)

    • AMD GPU Operator を使用して、AI/ML トレーニングや推論などのワークロードで AMD GPU を有効にします。
    • OpenShift で AMD GPU を有効にするには、次のタスクを実行する必要があります。

      • AMD GPU Operator をインストールします。
      • 完全なデプロイメントとドライバー設定は、AMD GPU Operator ドキュメント の手順に従ってください。
    • AMD GPU Operator をインストールすると、ROCm ワークベンチイメージを使用して AMD GPU 上の AI/ML ワークフローを効率化できるようになります。
  • Intel Gaudi AI アクセラレーター

    • Intel は、ディープラーニングワークロード向けのハードウェアアクセラレーターを提供しています。
    • OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、必要な依存関係をインストールする必要があります。また、インストールする Intel Gaudi AI Operator のバージョンは、デプロイメント内の対応するワークベンチイメージのバージョンと一致させる必要があります。
    • Intel Gaudi アクセラレーターのワークベンチイメージは、デフォルトでは OpenShift AI に含まれていません。代わりに、Intel Gaudi AI サポートを有効にするには、カスタムワークベンチを作成して設定する必要があります。
    • Intel Gaudi AI アクセラレーターは、オンプレミスで、または AWS インスタンス上の AWS DL1 コンピュートノードで有効にできます。
  • OpenShift AI でアクセラレーターを使用する前に、OpenShift AI で GPU サポートを有効にする必要があります。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストールNVIDIA GPU の有効化 を参照してください。

さらに、OpenShift インスタンスに、関連付けられたハードウェアプロファイルまたはアクセラレータープロファイルが含まれている必要があります。デプロイメントに新しく追加するアクセラレーターの場合は、コンテキスト内でアクセラレーターのハードウェアプロファイルまたはアクセラレータープロファイルを設定する必要があります。OpenShift AI ダッシュボードの SettingsHardware profiles ページから、ハードウェアプロファイルを作成できます。デプロイメントに、関連付けられたプロファイルがすでに設定されている既存のアクセラレーターが含まれている場合は、OpenShift AI の最新バージョンにアップグレードすると、プロファイルが自動的に作成されます。

+

重要

デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

第2章 アクセラレーターの有効化

OpenShift AI でアクセラレーターを使用する前に、関連するソフトウェアコンポーネントをインストールする必要があります。インストールプロセスはアクセラレーターの種類に応じて異なります。

前提条件

  • OpenShift クラスターにログインしている。
  • OpenShift クラスターの cluster-admin ロールを持っている。
  • アクセラレーターがインストールされ、環境で検出されることを確認しました。

手順

  1. アクセラレーターを有効にするには、適切なドキュメントに従ってください。

  2. アクセラレーターをインストールした後、アクセラレータープロファイルの操作 の説明に従ってアクセラレータープロファイルを作成します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

検証

  • Administrator パースペクティブから、OperatorsInstalled Operators ページに移動します。次の Operator が表示されていることを確認します。

    • アクセラレーター用の Operator
    • Node Feature Discovery (NFD)
    • カーネルモジュール管理 (KMM)
  • アクセラレーターは、Node Feature Discovery (NFD) と関連するアクセラレーター Operator のフルインストールから数分後に正しく検出されます。OpenShift コマンドラインインターフェイス (CLI) は、GPU ワーカーノードの適切な出力を表示します。たとえば、NVIDIA GPU が検出されたことを確認する出力は次のとおりです。

    # Expected output when the accelerator is detected correctly
    oc describe node <node name>
    ...
    Capacity:
      cpu:                4
      ephemeral-storage:  313981932Ki
      hugepages-1Gi:      0
      hugepages-2Mi:      0
      memory:             16076568Ki
      nvidia.com/gpu:     1
      pods:               250
    Allocatable:
      cpu:                3920m
      ephemeral-storage:  288292006229
      hugepages-1Gi:      0
      hugepages-2Mi:      0
      memory:             12828440Ki
      nvidia.com/gpu:     1
      pods:               250
    Copy to Clipboard Toggle word wrap

第3章 NVIDIA GPU の有効化

OpenShift AI で NVIDIA GPU を使用する前に、NVIDIA GPU Operator をインストールする必要があります。

重要

NVIDIA GPU アドオンはサポートされなくなりました。代わりに、NVIDIA GPU Operator をインストールして GPU を有効にします。デプロイメントに以前にインストールされた NVIDIA GPU アドオンがある場合は、NVIDIA GPU Operator をインストールする前に、Red Hat OpenShift Cluster Manager を使用してクラスターから NVIDIA GPU アドオンをアンインストールしてください。

前提条件

  • OpenShift クラスターにログインしている。
  • OpenShift クラスターの cluster-admin ロールを持っている。
  • NVIDIA GPU をインストールし、環境で検出されることを確認している。

手順

  1. OpenShift クラスターで GPU サポートを有効にするには、NVIDIA ドキュメントの Red Hat OpenShift Container Platform 上の NVIDIA GPU Operator の手順に従ってください。

    重要

    Node Feature Discovery (NFD) Operator のインストール後に、NodeFeatureDiscovery のインスタンスを作成する必要があります。さらに、NVIDIA GPU Operator のインストール後に、ClusterPolicy を作成し、デフォルト値を入力する必要があります。

  2. migration-gpu-status ConfigMap を削除します。

    1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
    2. ProjectAll Projects または redhat-ods-applications に設定して、適切な ConfigMap が表示されるようにします。
    3. migration-gpu-status ConfigMap を検索します。
    4. アクションメニュー (⋮) をクリックし、リストから Delete ConfigMap を選択します。

      Delete ConfigMap ダイアログが表示されます。

    5. ダイアログで、正しい ConfigMap が削除されていることを確認します。
    6. Delete をクリックします。
  3. ダッシュボードの replicaset を再起動します。

    1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
    2. WorkloadsDeployments をクリックします。
    3. ProjectAll Projects または redhat-ods-applications に設定して、適切なデプロイメントを確認できるようにします。
    4. rhods-dashboard デプロイメントを検索します。
    5. アクションメニュー (⋮) をクリックし、リストから Restart Rollout を選択します。
    6. ロールアウト内のすべての Pod が完全に再起動したことが Status 列に示されるまで待ちます。

検証

  • リセットされた migration-gpu-status インスタンスは、AcceleratorProfile カスタムリソース定義 (CRD) 詳細ページの Instances タブにあります。
  • Administrator パースペクティブから、OperatorsInstalled Operators ページに移動します。次の Operator が表示されていることを確認します。

    • NVIDIA GPU
    • Node Feature Discovery (NFD)
    • カーネルモジュール管理 (KMM)
  • Node Feature Discovery (NFD) および NVIDIA GPU Operator の完全なインストール後に、GPU が正しく検出されます。OpenShift コマンドラインインターフェイス (CLI) は、GPU ワーカーノードの適切な出力を表示します。以下に例を示します。

    # Expected output when the GPU is detected properly
    oc describe node <node name>
    ...
    Capacity:
      cpu:                4
      ephemeral-storage:  313981932Ki
      hugepages-1Gi:      0
      hugepages-2Mi:      0
      memory:             16076568Ki
      nvidia.com/gpu:     1
      pods:               250
    Allocatable:
      cpu:                3920m
      ephemeral-storage:  288292006229
      hugepages-1Gi:      0
      hugepages-2Mi:      0
      memory:             12828440Ki
      nvidia.com/gpu:     1
      pods:               250
    Copy to Clipboard Toggle word wrap
注記

OpenShift AI では、Red Hat は同じクラスター内でのみアクセラレーターの使用をサポートしています。

Red Hat では、NVIDIA GPU のみに対して Remote Direct Memory Access (RDMA) をサポートしているため、イーサネットまたは InfiniBand ネットワーク経由で NVIDIA GPUDirect RDMA を使用して GPU 同士が直接通信できます。

NVIDIA GPU Operator をインストールしたら、アクセラレータプロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。

重要

デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

第4章 Intel Gaudi AI アクセラレーターの統合

高性能ディープラーニングモデルを高速化するために、OpenShift AI に Intel Gaudi AI アクセラレーターを統合できます。このインテグレーションにより、データサイエンティストは、カスタム設定されたワークベンチインスタンスを通じて、Intel Gaudi AI アクセラレーターに関連付けられた Gaudi ライブラリーとソフトウェアを使用できるようになります。

Intel Gaudi AI アクセラレーターはディープラーニングワークロードに最適化されたパフォーマンスを提供します。最新の Gaudi 3 デバイスでは、トレーニング速度とエネルギー効率が大幅に向上しています。これらのアクセラレーターは、OpenShift AI 上で機械学習および AI アプリケーションを実行する企業に適しています。

OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、次の手順を完了する必要があります。

  1. OperatorHub から Intel Gaudi Base Operator の最新バージョンをインストールします。
  2. Intel Gaudi AI アクセラレーター用のカスタムワークベンチイメージを作成して設定します。Gaudi アクセラレーター用の事前ビルドされたワークベンチイメージは、OpenShift AI には含まれていません。
  3. 環境内の各 Intel Gaudi AI デバイスのアクセラレータープロファイルまたはハードウェアプロファイルを手動で定義および設定します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

Red Hat は、Intel Gaudi 3 までの Intel Gaudi デバイスをサポートしています。特に、Intel Gaudi 3 アクセラレーターには次のような利点があります。

  • トレーニングスループットの向上: 高度なテンソル処理コアとメモリー帯域幅の増加により、大規模なモデルのトレーニングに必要な時間を短縮します。
  • エネルギー効率: 高いパフォーマンスを維持しながら消費電力を抑え、大規模デプロイメントの運用コストを削減します。
  • スケーラブルなアーキテクチャー: 分散トレーニング設定を提供するために、複数のノードにわたってスケールします。

Amazon EC2 DL1 インスタンスで Intel Gaudi AI アクセラレーターを使用するには、OpenShift プラットフォームが EC2 DL1 インスタンスをサポートしている必要があります。アクセラレーターを有効にし、カスタムワークベンチイメージを作成し、アクセラレータープロファイルまたはハードウェアプロファイルを設定すると、ワークベンチインスタンスまたはモデルサービングで Intel Gaudi AI アクセラレーターを使用できるようになります。

デプロイメントに存在する Intel Gaudi AI アクセラレーターを特定するには、lspci ユーティリティーを使用します。詳細は、lspci(8)- Linux の man ページ を参照してください。

重要

lspci ユーティリティーによって示されるように、デプロイメント内に Intel Gaudi AI アクセラレーターが存在しても、デバイスが使用可能であることは保証されません。すべてのインストールおよび設定手順が正常に完了していることを確認する必要があります。

4.1. Intel Gaudi AI アクセラレーターの有効化

OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、Intel Gaudi Base Operator をデプロイして、環境を設定する必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。
  • Intel Gaudi アクセラレーターをインストールし、それが環境で検出されることを確認している。
  • Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
  • OpenShift コマンドラインインターフェイス (CLI) がインストールされている。

手順

  1. Intel Gaudi Base Operator OpenShift のインストール の説明に従って、最新バージョンの Intel Gaudi Base Operator をインストールします。
  2. OpenShift では、デフォルトで Pod あたりの PID 制限が 4096 に設定されます。複数の Gaudi アクセラレーターを使用する場合や、Ray で vLLM を使用する場合など、ワークロードにさらに多くの処理能力が必要な場合は、リソースが Resource temporarily unavailable というエラーを回避するために、Pod ごとの PID 制限を手動で増やす必要があります。このエラーは PID の枯渇により発生します。Red Hat はこの制限を 32768 に設定することを推奨していますが、20000 を超える値であれば十分です。

    1. 次のコマンドを実行してノードにラベルを付けます。

      oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
      Copy to Clipboard Toggle word wrap
    2. オプション: 影響を受けるノードへのワークロード分散を防ぐには、メンテナンスの準備中に、そのノードをスケジュール不可としてマークし、ドレインすることができます。詳細は、ノード上の Pod を退避させる方法 を参照してください。
    3. custom-kubelet-pidslimit.yaml KubeletConfig リソースファイルを作成します。

      oc create -f custom-kubelet-pidslimit.yaml
      Copy to Clipboard Toggle word wrap
    4. 次の YAML コードをファイルに入力します。PodPidsLimit 値を 32768 に設定します。

      apiVersion: machineconfiguration.openshift.io/v1
      kind: KubeletConfig
      metadata:
        name: custom-kubelet-pidslimit
      spec:
        kubeletConfig:
          PodPidsLimit: 32768
        machineConfigPoolSelector:
          matchLabels:
            custom-kubelet: set-pod-pid-limit-kubelet
      Copy to Clipboard Toggle word wrap
    5. 設定を適用します。

      oc apply -f custom-kubelet-pidslimit.yaml
      Copy to Clipboard Toggle word wrap

      この操作によりノードが再起動します。詳細は、ノードの再起動について を参照してください。

    6. オプション: 以前にノードをスケジュール不可とマークした場合は、ノードの再起動後に再度スケジュールを許可できます。
  3. カスタムワークベンチイメージの作成 の説明に従って、Intel Gaudi AI アクセラレーターのカスタムワークベンチイメージを作成します。
  4. Intel Gaudi Base Operator をインストールした後、アクセラレータープロファイルの操作 の説明に従ってアクセラレータープロファイルを作成します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

検証

Administrator パースペクティブから、OperatorsInstalled Operators ページに移動します。次の Operator が表示されていることを確認します。

  • Intel Gaudi Base Operator
  • Node Feature Discovery (NFD)
  • カーネルモジュール管理 (KMM)

第5章 AMD GPU の統合

AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。

AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。

  • ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
  • AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。

5.1. クラスター上の AMD GPU の可用性を確認する

AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するかを確認できます。lspcioc などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。

前提条件

  • OpenShift クラスターの管理権限を持っている。
  • AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
  • OpenShift CLI (oc) にアクセスでき、ノードへのターミナルアクセスを持っている。

手順

  1. OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。

    1. クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。

      oc get nodes
      Copy to Clipboard Toggle word wrap
    2. AMD GPU が存在すると予想されるノードの名前をメモします。
    3. ノードに対して describe を実行してリソース割り当てを確認します。

      oc describe node <node_name>
      Copy to Clipboard Toggle word wrap
    4. 出力で、Capacity および Allocatable セクションを見つけて、amd.com/gpu がリストされていることを確認します。以下に例を示します。

      Capacity:
        amd.com/gpu:  1
      Allocatable:
        amd.com/gpu:  1
      Copy to Clipboard Toggle word wrap
  2. lspci コマンドを使用して AMD GPU デバイスを確認します。

    1. ノードにログインします。

      oc debug node/<node_name>
      chroot /host
      Copy to Clipboard Toggle word wrap
    2. lspci コマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。

      lspci | grep -E "MI210|MI250|MI300"
      Copy to Clipboard Toggle word wrap
    3. 出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。

      03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
      Copy to Clipboard Toggle word wrap
  3. オプション: ノードに ROCm スタックがインストールされている場合は、rocminfo コマンドを使用します。

    rocminfo
    Copy to Clipboard Toggle word wrap
    1. ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。

検証

  • oc describe node <node_name> コマンドは、Capacity および Allocatable の下に amd.com/gpu をリストします。
  • lspci コマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。
  • オプション: rocminfo ツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。

5.2. AMD GPU の有効化

OpenShift AI で AMD GPU を使用する前に、必要な依存関係をインストールし、AMD GPU Operator をデプロイし、環境を設定する必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。
  • AMD GPU をインストールし、それが環境で検出されることを確認した。
  • Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。

手順

  1. Install AMD GPU Operator on OpenShift の説明に従って、最新バージョンの AMD GPU Operator をインストールします。
  2. AMD GPU Operator をインストールした後、Configure AMD drivers for the GPU Operator の説明に従って、Operator に必要な AMD ドライバーを設定します。

    注記

    または、Red Hat Catalog から AMD GPU Operator をインストールすることもできます。詳細は、Red Hat Catalog から AMD GPU Operator をインストールする を参照してください。

  1. AMD GPU Operator をインストールしたら、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。

    重要

    デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

検証

Administrator パースペクティブから、OperatorsInstalled Operators ページに移動します。次の Operator が表示されていることを確認します。

  • AMD GPU Operator
  • Node Feature Discovery (NFD)
  • カーネルモジュール管理 (KMM)
注記

ドライバーを適切にインストールおよび設定するために、必ずすべてのステップを実行してください。インストールや設定が正しくないと、AMD GPU が認識されなかったり、正常に機能しない可能性があります。

第6章 アクセラレータープロファイルの使用

重要

アクセラレータープロファイルは非推奨になりました。ワークベンチまたはモデルサービングワークロードの特定のワーカーノードをターゲットにするには、ハードウェアプロファイルを使用します。デフォルトでは、アクセラレータープロファイル機能はダッシュボードのナビゲーションメニューに表示されますが、ハードウェアプロファイル機能は非表示になっています。

ダッシュボードナビゲーションメニューでアクセラレータープロファイルを無効にするには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableAcceleratorProfiles 値を true に設定します。ハードウェアプロファイルを有効にするには、同じ CR で、disableHardwareProfiles 値を false に設定します。

注記: spec.dashboardConfig.disableAcceleratorProfiles オプションは、spec.dashboardConfig.disableHardwareProfiles オプションに置き換えられました。両方のオプションが false に設定されている場合、disableHardwareProfiles オプションは disableAcceleratorProfiles オプションを上書きし、ダッシュボードのナビゲーションメニューに Settings → Hardware profiles メニュー項目が表示されます。

ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

Red Hat では、サポートを継続的に受け、互換性を確保するために、既存のアクセラレータープロファイルをできるだけ早くハードウェアプロファイルに移行することを推奨しています。

データサイエンティストが OpenShift AI で使用できるようにアクセラレーターを設定するには、関連するアクセラレータープロファイルを作成する必要があります。アクセラレータープロファイルとは、AcceleratorProfile リソースを持ち、アクセラレーターの仕様を定義する OpenShift 上のカスタムリソース定義 (CRD) のことです。OpenShift AI ダッシュボードで SettingsAccelerator profiles を選択することで、アクセラレータープロファイルを作成および管理できます。

デプロイメントに新しく追加するアクセラレーターの場合は、アクセラレーターごとにアクセラレータープロファイルを手動で設定する必要があります。アップグレード前にデプロイメントにアクセラレーターが含まれている場合、関連するアクセラレータープロファイルはアップグレード後も保持されます。特定のアクセラレータープロファイルをカスタムワークベンチイメージに割り当てることで、データサイエンティストに表示されるアクセラレーターを管理できます。この例は、Habana Gaudi 1 アクセラレータープロファイルのコードを示しています。

---
apiVersion: dashboard.opendatahub.io/v1alpha
kind: AcceleratorProfile
metadata:
  name: hpu-profile-first-gen-gaudi
spec:
  displayName: Habana HPU - 1st Gen Gaudi
  description: First Generation Habana Gaudi device
  enabled: true
  identifier: habana.ai/gaudi
  tolerations:
    - effect: NoSchedule
      key: habana.ai/gaudi
      operator: Exists
---
Copy to Clipboard Toggle word wrap

アクセラレータープロファイルコードは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。アクセラレータープロファイル属性の詳細は、次の表を参照してください。

Expand
表6.1 アクセラレータープロファイル属性
属性必須説明

displayName

String

必須

アクセラレータープロファイルの表示名。

description

String

任意

アクセラレータープロファイルを定義する説明テキスト。

identifier

String

必須

アクセラレーターリソースを定義する一意の識別子。

enabled

Boolean

必須

アクセラレータが OpenShift AI に表示されるかどうかを決定します。

toleration

Array

Optional

アクセラレーターを使用するワークベンチおよびサービングランタイムに適用できる toleration。OpenShift AI の toleration 属性の詳細は、Toleration v1 core を参照してください。

6.1. アクセラレータープロファイルの表示

OpenShift AI のアクセラレータープロファイルを定義している場合は、Accelerator profiles ページからそれらを表示、有効化、無効化できます。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • デプロイメントに、既存のアクセラレータープロファイルが含まれている。

手順

  1. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。

  2. アクセラレータープロファイルのリストを調べます。アクセラレータープロファイルを有効または無効にするには、アクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。

検証

  • Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。

6.2. アクセラレータープロファイルの作成

データサイエンティストが OpenShift AI で使用できるようにアクセラレーターを設定するには、関連するアクセラレータープロファイルを作成する必要があります。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。

手順

  1. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。既存のアクセラレータープロファイルを有効または無効にするには、関連するアクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。

  2. Create accelerator profile をクリックします。

    Create accelerator profile ダイアログが開きます。

  3. Name フィールドに、アクセラレータープロファイルの名前を入力します。
  4. Identifier フィールドに、アクセラレータープロファイルに関連付けられたハードウェアアクセラレーターを識別する一意の文字列を入力します。
  5. オプション: Description フィールドに、アクセラレータープロファイルの説明を入力します。
  6. 作成直後にアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
  7. オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。

    1. Add toleration をクリックします。

      Add toleration ダイアログが開きます。

    2. Operator リストから、次のオプションのいずれかを選択します。

      • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
      • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
    3. Effect リストから、次のオプションのいずれかを選択します。

      • None
      • NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
      • PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
      • NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
    4. Key フィールドに、toleration キーを入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    5. Value フィールドに toleration 値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

      • Forever - Pod はノードに永続的にバインドされたままになります。
      • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    7. Add をクリックします。
  8. Create accelerator profile をクリックします。

検証

  • アクセラレータープロファイルは、Accelerator profiles ページに表示されます。
  • Accelerator リストは Start a basic workbench ページに表示されます。アクセラレーターを選択すると、Number of accelerators フィールドが表示されます。このフィールドを使用して、ワークベンチのアクセラレーターの数を選択できます。
  • アクセラレータープロファイルは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。

6.3. アクセラレータープロファイルの更新

デプロイメントにある既存のアクセラレータープロファイルを更新できます。表示名、識別子、説明などの重要な識別情報を変更できます。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • アクセラレータープロファイルがデプロイメント内に存在している。

手順

  1. OpenShift AI ダッシュボードから、SettingsWorkbench images をクリックします。

    Workbench images ページが表示されます。以前にインポートしたワークベンチイメージが表示されます。以前にインポートしたワークベンチイメージを有効または無効にするには、関連するワークベンチイメージを含む行で、Enable 列のトグルをクリックします。

  2. アクションメニュー (⋮) をクリックし、リストから Edit を選択します。

    Edit accelerator profile ダイアログが開きます。

  3. Name フィールドで、アクセラレータープロファイル名を更新します。
  4. Identifier フィールドで、アクセラレータープロファイルに関連付けられたハードウェアアクセラレーターを識別する一意の文字列を更新します (該当する場合)。
  5. オプション: Description フィールドで、アクセラレータープロファイルを更新します。
  6. 作成直後にアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
  7. オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。

    1. Add toleration をクリックします。

      Add toleration ダイアログが開きます。

    2. Operator リストから、次のオプションのいずれかを選択します。

      • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
      • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
    3. Effect リストから、次のオプションのいずれかを選択します。

      • None
      • NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
      • PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
      • NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
    4. Key フィールドに、toleration キーを入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    5. Value フィールドに toleration 値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
    6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

      • Forever - Pod はノードに永続的にバインドされたままになります。
      • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    7. Add をクリックします。
  8. アクセラレータープロファイルに既存の toleration が含まれている場合は、それらを編集できます。

    1. 編集する toleration を含む行のアクションメニュー (⋮) をクリックし、リストから Edit を選択します。
    2. 該当するフィールドに入力して、toleration の詳細を更新します。
    3. Update をクリックします。
  9. Update accelerator profile をクリックします。

検証

  • アクセラレータープロファイルに新しい識別情報がある場合、その情報は Start a basic workbench ページの Accelerator リストに表示されます。

6.4. アクセラレータープロファイルの削除

不要になったアクセラレータープロファイルを破棄するには、そのプロファイルを削除してダッシュボードに表示されないようにします。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • 削除するアクセラレータープロファイルがデプロイメント内に存在する。

手順

  1. OpenShift AI ダッシュボードから、SettingsAccelerator profiles をクリックします。

    Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。

  2. 削除するアクセラレータープロファイルの横にあるアクションメニュー () をクリックし、Delete をクリックします。

    Delete accelerator profile ダイアログが開きます。

  3. アクセラレータープロファイルの名前をテキストフィールドに入力して、削除することを確定します。
  4. Delete をクリックします。

検証

  • アクセラレータープロファイルは、Accelerator profiles ページに表示されなくなりました。

第7章 ハードウェアプロファイルの使用

重要

現在、ハードウェアプロファイルは、Red Hat OpenShift AI でテクノロジープレビュー機能としてのみ利用可能です。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行いフィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。

Red Hat OpenShift AI では、ハードウェアアクセラレーター、CPU のみのノード、特殊なメモリー割り当てなど、特定のハードウェア設定を持つワーカーノードでユーザーワークロードをスケジュールできます。ハードウェアプロファイルを使用すると、これらのハードウェアリソースを明示的に定義できるため、ワークロードを特定のノードに正確にターゲットを絞り、リソース管理の効率を高めることができます。

重要

デフォルトでは、この機能はダッシュボードのナビゲーションメニューに表示されません。ダッシュボードのナビゲーションメニューに Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられた他のユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。

ハードウェアプロファイルを使用すると、ハードウェア識別子、明示的なリソース割り当て制限 (CPU、メモリー、アクセラレーター)、toleration、およびノードセレクターを含むプロファイルを作成できます。これらの機能は、複数の GPU タイプ、CPU のみの設定、メモリーを大量に消費するワークロード、さらにはシングルノードのデプロイメントなど、異種ハードウェア環境で特に役立ちます。このターゲットを絞ったスケジューリングにより、特に多様なハードウェアを備えたクラスターなどの複雑な環境では、リソースの使用率が大幅に向上し、オーバーヘッドが削減され、コストが最適化されます。

使用を開始するには、クラスター管理者に連絡して、クラスターで使用可能なハードウェアリソースを確認してください。

データサイエンティストが OpenShift AI で使用する特定のハードウェアを設定するには、関連するハードウェアプロファイルを作成する必要があります。ハードウェアプロファイルは、HardwareProfile リソースを持ち、ハードウェア仕様を定義する、OpenShift 上のカスタムリソース定義 (CRD) です。ハードウェアプロファイルを作成および管理するには、OpenShift AI ダッシュボードで SettingsHardware profiles を選択します。

ハードウェアプロファイルを作成して有効にすると、ユーザーは、ワークベンチ、モデルサービングワークロード、パイプラインのデプロイ時に、必要に応じてユーザーインターフェイスでハードウェアプロファイルを選択できるようになります。

7.1. ハードウェアプロファイルの作成

データサイエンティストが OpenShift AI で使用する特定のハードウェアを設定するには、関連するハードウェアプロファイルを作成する必要があります。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • 関連するハードウェアがインストールされており、それが環境で検出されていることを確認した。

手順

  1. OpenShift AI ダッシュボードから、SettingsHardware profiles をクリックします。

    Hardware profiles ページが表示され、既存のハードウェアプロファイルが表示されます。既存のハードウェアプロファイルを有効または無効にするには、関連するハードウェアプロファイルが含まれる行で、Enabled 列のトグルをクリックします。

  2. Create hardware profile をクリックします。

    Create hardware profile ページが表示されます。

  3. Name フィールドに、ハードウェアプロファイルの名前を入力します。
  4. オプション: Kubernetes リソースのデフォルト名を変更するには、Edit resource name をクリックし、Resource name フィールドに名前を入力します。リソース名は作成後に編集できません。
  5. オプション: Description フィールドに、ハードウェアプロファイルの説明を入力します。
  6. Visibility セクションで、ハードウェアプロファイルの表示レベルを設定します。

    • OpenShift AI のすべての領域でハードウェアプロファイルにアクセスするには、Visible everywhere ラジオボタンを選択したままにします。
    • Limited visibility ラジオボタンを選択して、データサイエンティストがハードウェアプロファイルを使用できる OpenShift AI の領域を制限します。
  7. オプション: リソース要求と制限を設定します。

    1. Add resource をクリックします。

      Add resource ダイアログが開きます。

    2. Resource label フィールドに、一意のリソースラベルを入力します。
    3. Resource identifier フィールドに、一意のリソース識別子を入力します。
    4. Resource type フィールドで、リストからリソースタイプを選択します。
    5. Default フィールドに、デフォルトのリソース要求制限を入力します。この値は、最小値と最大値と等しいか、その範囲内である必要があります。
    6. Minimum allowed フィールドに、ユーザーが要求できるリソースの最小数を入力します。
    7. Maximum allowed フィールドに、ユーザーが要求できるリソースの最大数を入力します。

      1. 特定の最大要求制限を設定するには、Set maximum limit ラジオボタンをクリックし、値を入力します。
      2. 最大要求制限を設定しない場合は、No maximum limit ラジオボタンをクリックします。
    8. Add をクリックします。
  8. Resource allocation セクションで、Workload allocation strategy を選択して、ワークロードをノードに割り当てる方法を設定します。

    ローカルキュー
    1. Kueue を使用してジョブを自動的にキューに登録し、ワークロードの優先度に基づいてリソースを管理するには、Local queue を選択します。このオプションは、クラスターが Kueue を使用してワークロードを管理するように設定されている場合にのみ使用できます。
    2. Local queue フィールドに、このハードウェアプロファイルが使用する LocalQueue の名前を入力します。

      注記

      グローバルスコープのプロファイルの場合は、OpenShift AI Operator によって作成されたデフォルトの LocalQueue など、すべてのユーザープロジェクトに存在する LocalQueue 名を使用します。

    3. オプション: Workload priority リストから、このプロファイルを使用するジョブの優先度を選択します。リソースが限られている場合、優先度の高いワークロードは優先度の低いワークロードよりも先に承認されます。
    ノードセレクターと toleration
    1. ノードセレクターと toleration を手動で追加するには、Node selectors and tolerations を選択します。
    2. オプション: 一致するラベルを持つノードに Pod をスケジュールするためのノードセレクターを追加します。

      1. Add node selector をクリックします。

        Add node selector ダイアログが開きます。

      2. Key フィールドにノード選択キーを入力します。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
      3. Value フィールドにノード選択値を入力します。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
      4. Add をクリックします。
    3. オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。

      1. Add toleration をクリックします。

        Add toleration ダイアログが開きます。

      2. Operator リストから、次のオプションのいずれかを選択します。

        • Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
        • Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
      3. Effect リストから、次のオプションのいずれかを選択します。

        • None
        • NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
        • PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
        • NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
      4. Key フィールドに、toleration キーを入力します。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
      5. Value フィールドに toleration 値を入力します。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
      6. Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。

        • Forever - Pod はノードに永続的にバインドされたままになります。
        • Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
    4. Add をクリックします。
  9. Create hardware profile をクリックします。

検証

  • ハードウェアプロファイルは、Hardware profiles ページに表示されます。
  • ハードウェアプロファイルは、Create workbench ページの Hardware profiles リストに表示されます。
  • ハードウェアプロファイルは、HardwareProfile カスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。

7.2. ハードウェアプロファイルの更新

デプロイメント内の既存のハードウェアプロファイルを更新できます。表示名、識別子、説明などの重要な識別情報を変更できます。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • ハードウェアプロファイルがデプロイメント内に存在する。

手順

  1. OpenShift AI ダッシュボードから、SettingsHardware profiles をクリックします。

    Hardware profiles ページが開きます。既存のハードウェアプロファイルが表示されます。ハードウェアプロファイルを有効または無効にするには、関連するハードウェアプロファイルが含まれる行で、Enabled 列のトグルをクリックします。

  2. アクションメニュー (⋮) をクリックし、リストから Edit を選択します。

    Edit hardware profile ダイアログが開きます。

  3. 変更を加えます。
  4. Update hardware profile をクリックします。

検証

  • ハードウェアプロファイルに新しい識別情報がある場合、その情報は Create workbench ページの Hardware profile リストに表示されます。

7.3. ハードウェアプロファイルの削除

不要になったハードウェアプロファイルを破棄するには、そのプロファイルを削除してダッシュボードに表示されないようにします。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • 削除するハードウェアプロファイルがデプロイメント内に存在する。

手順

  1. OpenShift AI ダッシュボードから、SettingsHardware profiles をクリックします。

    Hardware profiles ページが表示され、既存のハードウェアプロファイルが表示されます。

  2. 削除するハードウェアプロファイルの横にあるアクションメニュー () をクリックし、Delete をクリックします。

    Delete hardware profile ダイアログが開きます。

  3. ハードウェアプロファイルの名前をテキストフィールドに入力し、削除することを確定します。
  4. Delete をクリックします。

検証

  • ハードウェアプロファイルは、Hardware profiles ページに表示されなくなります。

第8章 GPU タイムスライスについて

GPU タイムスライシングを使用して、処理時間を短く分割して交互にすることで、複数のワークロードが単一の物理 GPU を共有できるようになります。この方法により、リソース使用率が向上し、アイドル状態の GPU 時間が短縮され、複数のユーザーが OpenShift AI で AI/ML ワークロードを同時に実行できるようになります。NVIDIA GPU Operator は、各物理 GPU の GPU スライスの数を定義する time-slicing-config ConfigMap に基づいてこのスケジュールを管理します。

タイムスライスは、マルチインスタンス GPU (MIG) パーティショニングとは異なります。MIG はメモリーと障害を分離しますが、タイムスライスは厳密な分離なしにワークロード間で同じ GPU メモリーを共有します。タイムスライスは、軽量の推論タスク、データの前処理、および完全な GPU 分離が不要なその他のシナリオに最適です。

GPU タイムスライスを使用する場合は、次の点を考慮してください。

  • メモリー共有: すべてのワークロードは GPU メモリーを共有します。1 つのワークロードでメモリーが多く使用されると、他のワークロードに影響を及ぼす可能性があります。
  • パフォーマンスのトレードオフ: タイムスライスでは複数のワークロードで GPU を共有できますが、MIG のように厳密にリソースが分離されません。
  • GPU 互換性: タイムスライスは特定の NVIDIA GPU でサポートされています。

8.1. GPU タイムスライスを有効にする

OpenShift AI で GPU タイムスライスを有効にするには、複数のワークロードが単一の GPU を共有できるように NVIDIA GPU Operator を設定する必要があります。

前提条件

  • OpenShift にログインしている。
  • OpenShift の cluster-admin ロールを持っている。
  • NVIDIA GPU Operator のインストールおよび設定が済んでいる。
  • デプロイメント内の関連ノードに NVIDIA GPU が含まれる。
  • デプロイメント内の GPU はタイムスライスをサポートしている。
  • OpenShift CLI のインストール の説明に従って、OpenShift コマンドラインインターフェイス (oc) がインストールされている。

手順

  1. GPU Operator が使用する namespace に、名前が time-slicing-config の config map を作成します。NVIDIA GPU の場合、これは nvidia-gpu-operator namespace です。

    1. OpenShift Web コンソールにクラスター管理者としてログインします。
    2. Administrator パースペクティブで、WorkloadsConfigMaps に移動します。
    3. ConfigMap の詳細ページで、Create Config Map ボタンをクリックします。
    4. Create Config Map ページの Configure viaYAML view を選択します。
    5. Data フィールドに、関連する GPU の YAML コードを入力します。以下は、NVIDIA T4 GPU の time-slicing-config config map の例です。

      注記
      • レプリカの数を変更して、各物理 GPU で使用できる GPU スライスの数を制御できます。
      • レプリカを増やすと、ワークロードが利用可能な GPU メモリーを超えた場合にメモリー不足 (OOM) エラーのリスクが高まる可能性があります。
      apiVersion: v1
      kind: ConfigMap
      metadata:
        name: time-slicing-config
      data:
        tesla-t4: |-
          version: v1
          flags:
            migStrategy: none
          sharing:
            timeSlicing:
              renameByDefault: false
              failRequestsGreaterThanOne: false
              resources:
                - name: nvidia.com/gpu
                  replicas: 4
      Copy to Clipboard Toggle word wrap
    6. Create をクリックします。
  2. time-slicing-config config map を参照するように gpu-cluster-policy クラスターポリシーを更新します。

    1. Administrator パースペクティブで、OperatorsInstalled Operators に移動します。
    2. NVIDIA GPU Operator を検索し、Operator 名をクリックして Operator details ページを開きます。
    3. ClusterPolicy タブをクリックします。
    4. リストから gpu-cluster-policy リソースを選択して、ClusterPolicy の詳細ページを開きます。
    5. YAML タブをクリックし、time-slicing-config config map を参照するように spec.devicePlugin セクションを更新します。以下は、NVIDIA T4 GPU の gpu-cluster-policy クラスターポリシーの例です。

      apiVersion: nvidia.com/v1
      kind: ClusterPolicy
      metadata:
        name: gpu-cluster-policy
      spec:
          devicePlugin:
            config:
              default: tesla-t4
              name: time-slicing-config
      Copy to Clipboard Toggle word wrap
    6. Save をクリックします。
  3. タイムスライスを適用する関連マシンセットにラベルを付けます。

    1. Administrator パースペクティブで、ComputeMachine Sets に移動します。
    2. リストから GPU タイムスライスに設定されたマシンを選択します。
    3. MachineSet の詳細ページで、YAML タブをクリックし、spec.template.spec.metadata.labels セクションを更新して、関連するマシンセットにラベルを付けます。以下は、NVIDIA T4 GPU に適切なマシンラベルが設定されたマシンの例です。

        spec:
          template:
            spec:
              metadata:
                labels:
                  nvidia.com/device-plugin.config: tesla-t4
      Copy to Clipboard Toggle word wrap
    4. Save をクリックします。

検証

  1. OpenShift CLI にログインします。
  2. config map が正しく適用されていることを確認します。

    oc get configmap time-slicing-config -n nvidia-gpu-operator -o yaml
    Copy to Clipboard Toggle word wrap
  3. クラスターポリシーにタイムスライス設定が含まれていることを確認します。

    oc get clusterpolicy gpu-cluster-policy -o yaml
    Copy to Clipboard Toggle word wrap
  4. ラベルがノードに適用されていることを確認します。

    oc get nodes --show-labels | grep nvidia.com/device-plugin.config
    Copy to Clipboard Toggle word wrap
注記

ワークロードが GPU を共有していないように見える場合は、NVIDIA デバイスプラグインが実行されており、正しいラベルが適用されていることを確認します。

法律上の通知

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る