アクセラレーターの使用
Red Hat OpenShift AI Cloud Service のアクセラレーターの使用
概要
はじめに リンクのコピーリンクがクリップボードにコピーされました!
NVIDIA GPU、AMD GPU、Intel Gaudi AI アクセラレーターなどのアクセラレーターを使用して、エンドツーエンドのデータサイエンスワークフローのパフォーマンスを最適化します。
第1章 アクセラレーターの概要 リンクのコピーリンクがクリップボードにコピーされました!
大規模なデータセットを扱う場合は、アクセラレーターを使用して OpenShift AI のデータサイエンスモデルのパフォーマンスを最適化できます。アクセラレーターを使用すると、作業を拡張し、待ち時間を短縮し、生産性を向上させることができます。OpenShift AI のアクセラレーターを使用して、データサイエンティストによる次のタスクを支援できます。
- 自然言語処理 (NLP)
- 推論
- ディープニュラルネットワークのトレーニング
- データクレンジングとデータ処理
OpenShift AI では次のアクセラレーターを使用できます。
NVIDIA グラフィックスプロセッシングユニット (GPU)
- モデルで計算負荷の高いワークロードを使用するには、OpenShift AI で NVIDIA グラフィックスプロセッシングユニット (GPU) を有効にしてください。
- OpenShift で NVIDIA GPU を有効にするには、NVIDIA GPU Operator をインストールする必要があります。
AMD グラフィックスプロセッシングユニット (GPU)
- AMD GPU Operator を使用して、AI/ML トレーニングや推論などのワークロードで AMD GPU を有効にします。
OpenShift で AMD GPU を有効にするには、次のタスクを実行する必要があります。
- AMD GPU Operator をインストールします。
- 完全なデプロイメントとドライバー設定は、AMD GPU Operator ドキュメント の手順に従ってください。
- AMD GPU Operator をインストールすると、ROCm ワークベンチイメージを使用して AMD GPU 上の AI/ML ワークフローを効率化できるようになります。
Intel Gaudi AI アクセラレーター
- Intel は、ディープラーニングワークロード向けのハードウェアアクセラレーターを提供しています。
- OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、必要な依存関係をインストールする必要があります。また、インストールする Intel Gaudi AI Operator のバージョンは、デプロイメント内の対応するワークベンチイメージのバージョンと一致させる必要があります。
- Intel Gaudi アクセラレーターのワークベンチイメージは、デフォルトでは OpenShift AI に含まれていません。代わりに、Intel Gaudi AI サポートを有効にするには、カスタムワークベンチを作成して設定する必要があります。
- Intel Gaudi AI アクセラレーターは、オンプレミスで、または AWS インスタンス上の AWS DL1 コンピュートノードで有効にできます。
- OpenShift AI でアクセラレーターを使用する前に、OpenShift AI で GPU サポートを有効にする必要があります。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
さらに、OpenShift インスタンスに、関連付けられたハードウェアプロファイルまたはアクセラレータープロファイルが含まれている必要があります。デプロイメントに新しく追加するアクセラレーターの場合は、コンテキスト内でアクセラレーターのハードウェアプロファイルまたはアクセラレータープロファイルを設定する必要があります。OpenShift AI ダッシュボードの Settings → Hardware profiles ページから、ハードウェアプロファイルを作成できます。デプロイメントに、関連付けられたプロファイルがすでに設定されている既存のアクセラレーターが含まれている場合は、OpenShift AI の最新バージョンにアップグレードすると、プロファイルが自動的に作成されます。
+
デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
第2章 アクセラレーターの有効化 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI でアクセラレーターを使用する前に、関連するソフトウェアコンポーネントをインストールする必要があります。インストールプロセスはアクセラレーターの種類に応じて異なります。
前提条件
- OpenShift クラスターにログインしている。
-
OpenShift クラスターの
cluster-adminロールを持っている。 - アクセラレーターがインストールされ、環境で検出されることを確認しました。
手順
アクセラレーターを有効にするには、適切なドキュメントに従ってください。
- NVIDIA GPU: NVIDIA GPU の有効化 を参照してください。
- Intel Gaudi AI アクセラレーター: Intel Gaudi AI アクセラレーターの有効化 を参照してください。
- AMD GPU: AMD GPU の有効化 を参照してください。
アクセラレーターをインストールした後、アクセラレータープロファイルの操作 の説明に従ってアクセラレータープロファイルを作成します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の
OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
検証
Administrator パースペクティブから、Operators → Installed Operators ページに移動します。次の Operator が表示されていることを確認します。
- アクセラレーター用の Operator
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
アクセラレーターは、Node Feature Discovery (NFD) と関連するアクセラレーター Operator のフルインストールから数分後に正しく検出されます。OpenShift コマンドラインインターフェイス (CLI) は、GPU ワーカーノードの適切な出力を表示します。たとえば、NVIDIA GPU が検出されたことを確認する出力は次のとおりです。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
第3章 NVIDIA GPU の有効化 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI で NVIDIA GPU を使用する前に、NVIDIA GPU Operator をインストールする必要があります。
NVIDIA GPU アドオンはサポートされなくなりました。代わりに、NVIDIA GPU Operator をインストールして GPU を有効にします。デプロイメントに以前にインストールされた NVIDIA GPU アドオンがある場合は、NVIDIA GPU Operator をインストールする前に、Red Hat OpenShift Cluster Manager を使用してクラスターから NVIDIA GPU アドオンをアンインストールしてください。
前提条件
- OpenShift クラスターにログインしている。
-
OpenShift クラスターの
cluster-adminロールを持っている。 - NVIDIA GPU をインストールし、環境で検出されることを確認している。
手順
OpenShift クラスターで GPU サポートを有効にするには、NVIDIA ドキュメントの Red Hat OpenShift Container Platform 上の NVIDIA GPU Operator の手順に従ってください。
重要Node Feature Discovery (NFD) Operator のインストール後に、NodeFeatureDiscovery のインスタンスを作成する必要があります。さらに、NVIDIA GPU Operator のインストール後に、ClusterPolicy を作成し、デフォルト値を入力する必要があります。
migration-gpu-status ConfigMap を削除します。
- OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
- Project を All Projects または redhat-ods-applications に設定して、適切な ConfigMap が表示されるようにします。
- migration-gpu-status ConfigMap を検索します。
アクションメニュー (⋮) をクリックし、リストから Delete ConfigMap を選択します。
Delete ConfigMap ダイアログが表示されます。
- ダイアログで、正しい ConfigMap が削除されていることを確認します。
- Delete をクリックします。
ダッシュボードの replicaset を再起動します。
- OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
- Workloads → Deployments をクリックします。
- Project を All Projects または redhat-ods-applications に設定して、適切なデプロイメントを確認できるようにします。
- rhods-dashboard デプロイメントを検索します。
- アクションメニュー (⋮) をクリックし、リストから Restart Rollout を選択します。
- ロールアウト内のすべての Pod が完全に再起動したことが Status 列に示されるまで待ちます。
検証
-
リセットされた migration-gpu-status インスタンスは、
AcceleratorProfileカスタムリソース定義 (CRD) 詳細ページの Instances タブにあります。 Administrator パースペクティブから、Operators → Installed Operators ページに移動します。次の Operator が表示されていることを確認します。
- NVIDIA GPU
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
Node Feature Discovery (NFD) および NVIDIA GPU Operator の完全なインストール後に、GPU が正しく検出されます。OpenShift コマンドラインインターフェイス (CLI) は、GPU ワーカーノードの適切な出力を表示します。以下に例を示します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
OpenShift AI では、Red Hat は同じクラスター内でのみアクセラレーターの使用をサポートしています。
Red Hat では、NVIDIA GPU のみに対して Remote Direct Memory Access (RDMA) をサポートしているため、イーサネットまたは InfiniBand ネットワーク経由で NVIDIA GPUDirect RDMA を使用して GPU 同士が直接通信できます。
NVIDIA GPU Operator をインストールしたら、アクセラレータプロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。
デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
第4章 Intel Gaudi AI アクセラレーターの統合 リンクのコピーリンクがクリップボードにコピーされました!
高性能ディープラーニングモデルを高速化するために、OpenShift AI に Intel Gaudi AI アクセラレーターを統合できます。このインテグレーションにより、データサイエンティストは、カスタム設定されたワークベンチインスタンスを通じて、Intel Gaudi AI アクセラレーターに関連付けられた Gaudi ライブラリーとソフトウェアを使用できるようになります。
Intel Gaudi AI アクセラレーターはディープラーニングワークロードに最適化されたパフォーマンスを提供します。最新の Gaudi 3 デバイスでは、トレーニング速度とエネルギー効率が大幅に向上しています。これらのアクセラレーターは、OpenShift AI 上で機械学習および AI アプリケーションを実行する企業に適しています。
OpenShift AI で Intel Gaudi AI アクセラレーターを有効にする前に、次の手順を完了する必要があります。
- OperatorHub から Intel Gaudi Base Operator の最新バージョンをインストールします。
- Intel Gaudi AI アクセラレーター用のカスタムワークベンチイメージを作成して設定します。Gaudi アクセラレーター用の事前ビルドされたワークベンチイメージは、OpenShift AI には含まれていません。
環境内の各 Intel Gaudi AI デバイスのアクセラレータープロファイルまたはハードウェアプロファイルを手動で定義および設定します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の
OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
Red Hat は、Intel Gaudi 3 までの Intel Gaudi デバイスをサポートしています。特に、Intel Gaudi 3 アクセラレーターには次のような利点があります。
- トレーニングスループットの向上: 高度なテンソル処理コアとメモリー帯域幅の増加により、大規模なモデルのトレーニングに必要な時間を短縮します。
- エネルギー効率: 高いパフォーマンスを維持しながら消費電力を抑え、大規模デプロイメントの運用コストを削減します。
- スケーラブルなアーキテクチャー: 分散トレーニング設定を提供するために、複数のノードにわたってスケールします。
Amazon EC2 DL1 インスタンスで Intel Gaudi AI アクセラレーターを使用するには、OpenShift プラットフォームが EC2 DL1 インスタンスをサポートしている必要があります。アクセラレーターを有効にし、カスタムワークベンチイメージを作成し、アクセラレータープロファイルまたはハードウェアプロファイルを設定すると、ワークベンチインスタンスまたはモデルサービングで Intel Gaudi AI アクセラレーターを使用できるようになります。
デプロイメントに存在する Intel Gaudi AI アクセラレーターを特定するには、lspci ユーティリティーを使用します。詳細は、lspci(8)- Linux の man ページ を参照してください。
lspci ユーティリティーによって示されるように、デプロイメント内に Intel Gaudi AI アクセラレーターが存在しても、デバイスが使用可能であることは保証されません。すべてのインストールおよび設定手順が正常に完了していることを確認する必要があります。
4.1. Intel Gaudi AI アクセラレーターの有効化 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI で Intel Gaudi AI アクセラレーターを使用する前に、必要な依存関係をインストールし、Intel Gaudi Base Operator をデプロイして、環境を設定する必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-adminロールを持っている。 - Intel Gaudi アクセラレーターをインストールし、それが環境で検出されることを確認している。
- Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
- OpenShift コマンドラインインターフェイス (CLI) がインストールされている。
手順
- Intel Gaudi Base Operator OpenShift のインストール の説明に従って、最新バージョンの Intel Gaudi Base Operator をインストールします。
OpenShift では、デフォルトで Pod あたりの PID 制限が 4096 に設定されます。複数の Gaudi アクセラレーターを使用する場合や、Ray で vLLM を使用する場合など、ワークロードにさらに多くの処理能力が必要な場合は、リソースが
Resource temporarily unavailableというエラーを回避するために、Pod ごとの PID 制限を手動で増やす必要があります。このエラーは PID の枯渇により発生します。Red Hat はこの制限を 32768 に設定することを推奨していますが、20000 を超える値であれば十分です。次のコマンドを実行してノードにラベルを付けます。
oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubeletCopy to Clipboard Copied! Toggle word wrap Toggle overflow - オプション: 影響を受けるノードへのワークロード分散を防ぐには、メンテナンスの準備中に、そのノードをスケジュール不可としてマークし、ドレインすることができます。詳細は、ノード上の Pod を退避させる方法 を参照してください。
custom-kubelet-pidslimit.yamlKubeletConfig リソースファイルを作成します。oc create -f custom-kubelet-pidslimit.yaml
oc create -f custom-kubelet-pidslimit.yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow 次の YAML コードをファイルに入力します。
PodPidsLimit値を 32768 に設定します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 設定を適用します。
oc apply -f custom-kubelet-pidslimit.yaml
oc apply -f custom-kubelet-pidslimit.yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow この操作によりノードが再起動します。詳細は、ノードの再起動について を参照してください。
- オプション: 以前にノードをスケジュール不可とマークした場合は、ノードの再起動後に再度スケジュールを許可できます。
- カスタムワークベンチイメージの作成 の説明に従って、Intel Gaudi AI アクセラレーターのカスタムワークベンチイメージを作成します。
Intel Gaudi Base Operator をインストールした後、アクセラレータープロファイルの操作 の説明に従ってアクセラレータープロファイルを作成します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の
OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
検証
Administrator パースペクティブから、Operators → Installed Operators ページに移動します。次の Operator が表示されていることを確認します。
- Intel Gaudi Base Operator
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
第5章 AMD GPU の統合 リンクのコピーリンクがクリップボードにコピーされました!
AMD GPU を OpenShift AI と併用すると、AI および機械学習 (ML) のワークロードを高速化できます。AMD GPU は高性能なコンピュート機能を提供します。そのため、ユーザーは大規模なデータセットの処理、ディープニューラルネットワークのトレーニング、複雑な推論タスクの実行を効率化できます。
AMD GPU を OpenShift AI に統合するには、次のコンポーネントが必要です。
- ROCm ワークベンチイメージ: ROCm ワークベンチイメージは、AMD GPU 上の AI/ML ワークフローを効率化するために使用します。このイメージは、AMD ROCm プラットフォームにより最適化されたライブラリーとフレームワークを含んでおり、PyTorch および TensorFlow の高パフォーマンスワークロードを実現します。事前設定されたイメージにより、セットアップ時間が短縮され、GPU アクセラレーションを使用した開発と実験に最適化された環境が提供されます。
- AMD GPU Operator: AMD GPU Operator は、ドライバーのインストール、デバイスプラグインのセットアップ、GPU リソース管理用のノードラベル付けを自動化することで、GPU の統合を簡素化します。GPU 対応ワークロードのスケーリングを可能にしながら、OpenShift と AMD ハードウェア間の互換性を確保します。
5.1. クラスター上の AMD GPU の可用性を確認する リンクのコピーリンクがクリップボードにコピーされました!
AMD GPU Operator のインストールプロセスに進む前に、OpenShift クラスター内のノードに AMD GPU デバイスが存在するかを確認できます。lspci や oc などのコマンドを使用して、ハードウェアとリソースの可用性を確認できます。
前提条件
- OpenShift クラスターの管理権限を持っている。
- AMD GPU を搭載したノードが含まれる、実行中の OpenShift クラスターがある。
-
OpenShift CLI (
oc) にアクセスでき、ノードへのターミナルアクセスを持っている。
手順
OpenShift CLI を使用して、GPU リソースが割り当て可能かどうかを確認します。
クラスター内のすべてのノードをリスト表示して、AMD GPU を搭載したノードを識別します。
oc get nodes
oc get nodesCopy to Clipboard Copied! Toggle word wrap Toggle overflow - AMD GPU が存在すると予想されるノードの名前をメモします。
ノードに対して describe を実行してリソース割り当てを確認します。
oc describe node <node_name>
oc describe node <node_name>Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力で、Capacity および Allocatable セクションを見つけて、
amd.com/gpuがリストされていることを確認します。以下に例を示します。Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1Copy to Clipboard Copied! Toggle word wrap Toggle overflow
lspciコマンドを使用して AMD GPU デバイスを確認します。ノードにログインします。
oc debug node/<node_name> chroot /host
oc debug node/<node_name> chroot /hostCopy to Clipboard Copied! Toggle word wrap Toggle overflow lspciコマンドを実行して、デプロイメントでサポートされている AMD デバイスを検索します。以下に例を示します。lspci | grep -E "MI210|MI250|MI300"
lspci | grep -E "MI210|MI250|MI300"Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力にいずれかの AMD GPU モデルが含まれていることを確認します。以下に例を示します。
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210Copy to Clipboard Copied! Toggle word wrap Toggle overflow
オプション: ノードに ROCm スタックがインストールされている場合は、
rocminfoコマンドを使用します。rocminfo
rocminfoCopy to Clipboard Copied! Toggle word wrap Toggle overflow - ROCm ツールが、コンピュートユニット、メモリー、ドライバーステータスなどの AMD GPU に関する詳細を出力することを確認します。
検証
-
oc describe node <node_name>コマンドは、Capacity および Allocatable の下にamd.com/gpuをリストします。 -
lspciコマンドの出力は、指定されたモデル (MI210、MI250、MI300 など) のいずれかに一致する PCI デバイスとして AMD GPU を識別します。 -
オプション:
rocminfoツールは、ドライバーとハードウェアの設定を確認するための詳細な GPU 情報を提供します。
5.2. AMD GPU の有効化 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI で AMD GPU を使用する前に、必要な依存関係をインストールし、AMD GPU Operator をデプロイし、環境を設定する必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-adminロールを持っている。 - AMD GPU をインストールし、それが環境で検出されることを確認した。
- Amazon Web Services (AWS) 上で実行している場合は、OpenShift 環境が EC2 DL1 インスタンスをサポートしている。
手順
- Install AMD GPU Operator on OpenShift の説明に従って、最新バージョンの AMD GPU Operator をインストールします。
AMD GPU Operator をインストールした後、Configure AMD drivers for the GPU Operator の説明に従って、Operator に必要な AMD ドライバーを設定します。
注記または、Red Hat Catalog から AMD GPU Operator をインストールすることもできます。詳細は、Red Hat Catalog から AMD GPU Operator をインストールする を参照してください。
AMD GPU Operator をインストールしたら、アクセラレータープロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の
OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
検証
Administrator パースペクティブから、Operators → Installed Operators ページに移動します。次の Operator が表示されていることを確認します。
- AMD GPU Operator
- Node Feature Discovery (NFD)
- カーネルモジュール管理 (KMM)
ドライバーを適切にインストールおよび設定するために、必ずすべてのステップを実行してください。インストールや設定が正しくないと、AMD GPU が認識されなかったり、正常に機能しない可能性があります。
第6章 アクセラレータープロファイルの使用 リンクのコピーリンクがクリップボードにコピーされました!
アクセラレータープロファイルは非推奨になりました。ワークベンチまたはモデルサービングワークロードの特定のワーカーノードをターゲットにするには、ハードウェアプロファイルを使用します。デフォルトでは、アクセラレータープロファイル機能はダッシュボードのナビゲーションメニューに表示されますが、ハードウェアプロファイル機能は非表示になっています。
ダッシュボードナビゲーションメニューでアクセラレータープロファイルを無効にするには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableAcceleratorProfiles 値を true に設定します。ハードウェアプロファイルを有効にするには、同じ CR で、disableHardwareProfiles 値を false に設定します。
注記: spec.dashboardConfig.disableAcceleratorProfiles オプションは、spec.dashboardConfig.disableHardwareProfiles オプションに置き換えられました。両方のオプションが false に設定されている場合、disableHardwareProfiles オプションは disableAcceleratorProfiles オプションを上書きし、ダッシュボードのナビゲーションメニューに Settings → Hardware profiles メニュー項目が表示されます。
ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
Red Hat では、サポートを継続的に受け、互換性を確保するために、既存のアクセラレータープロファイルをできるだけ早くハードウェアプロファイルに移行することを推奨しています。
データサイエンティストが OpenShift AI で使用できるようにアクセラレーターを設定するには、関連するアクセラレータープロファイルを作成する必要があります。アクセラレータープロファイルとは、AcceleratorProfile リソースを持ち、アクセラレーターの仕様を定義する OpenShift 上のカスタムリソース定義 (CRD) のことです。OpenShift AI ダッシュボードで Settings → Accelerator profiles を選択することで、アクセラレータープロファイルを作成および管理できます。
デプロイメントに新しく追加するアクセラレーターの場合は、アクセラレーターごとにアクセラレータープロファイルを手動で設定する必要があります。アップグレード前にデプロイメントにアクセラレーターが含まれている場合、関連するアクセラレータープロファイルはアップグレード後も保持されます。特定のアクセラレータープロファイルをカスタムワークベンチイメージに割り当てることで、データサイエンティストに表示されるアクセラレーターを管理できます。この例は、Habana Gaudi 1 アクセラレータープロファイルのコードを示しています。
アクセラレータープロファイルコードは、AcceleratorProfile カスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。アクセラレータープロファイル属性の詳細は、次の表を参照してください。
| 属性 | 型 | 必須 | 説明 |
|---|---|---|---|
| displayName | String | 必須 | アクセラレータープロファイルの表示名。 |
| description | String | 任意 | アクセラレータープロファイルを定義する説明テキスト。 |
| identifier | String | 必須 | アクセラレーターリソースを定義する一意の識別子。 |
| enabled | Boolean | 必須 | アクセラレータが OpenShift AI に表示されるかどうかを決定します。 |
| toleration | Array | Optional | アクセラレーターを使用するワークベンチおよびサービングランタイムに適用できる toleration。OpenShift AI の toleration 属性の詳細は、Toleration v1 core を参照してください。 |
6.1. アクセラレータープロファイルの表示 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI のアクセラレータープロファイルを定義している場合は、Accelerator profiles ページからそれらを表示、有効化、無効化できます。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- デプロイメントに、既存のアクセラレータープロファイルが含まれている。
手順
OpenShift AI ダッシュボードから、Settings → Accelerator profiles をクリックします。
Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。
- アクセラレータープロファイルのリストを調べます。アクセラレータープロファイルを有効または無効にするには、アクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。
検証
- Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。
6.2. アクセラレータープロファイルの作成 リンクのコピーリンクがクリップボードにコピーされました!
データサイエンティストが OpenShift AI で使用できるようにアクセラレーターを設定するには、関連するアクセラレータープロファイルを作成する必要があります。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
手順
OpenShift AI ダッシュボードから、Settings → Accelerator profiles をクリックします。
Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。既存のアクセラレータープロファイルを有効または無効にするには、関連するアクセラレータープロファイルを含む行で、Enable 列のトグルをクリックします。
Create accelerator profile をクリックします。
Create accelerator profile ダイアログが開きます。
- Name フィールドに、アクセラレータープロファイルの名前を入力します。
- Identifier フィールドに、アクセラレータープロファイルに関連付けられたハードウェアアクセラレーターを識別する一意の文字列を入力します。
- オプション: Description フィールドに、アクセラレータープロファイルの説明を入力します。
- 作成直後にアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。
Add toleration をクリックします。
Add toleration ダイアログが開きます。
Operator リストから、次のオプションのいずれかを選択します。
- Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
- Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
Effect リストから、次のオプションのいずれかを選択します。
- None
- NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
- PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
- NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
- Key フィールドに、toleration キーを入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
- Value フィールドに toleration 値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。
- Forever - Pod はノードに永続的にバインドされたままになります。
- Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
- Add をクリックします。
- Create accelerator profile をクリックします。
検証
- アクセラレータープロファイルは、Accelerator profiles ページに表示されます。
- Accelerator リストは Start a basic workbench ページに表示されます。アクセラレーターを選択すると、Number of accelerators フィールドが表示されます。このフィールドを使用して、ワークベンチのアクセラレーターの数を選択できます。
-
アクセラレータープロファイルは、
AcceleratorProfileカスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。
6.3. アクセラレータープロファイルの更新 リンクのコピーリンクがクリップボードにコピーされました!
デプロイメントにある既存のアクセラレータープロファイルを更新できます。表示名、識別子、説明などの重要な識別情報を変更できます。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- アクセラレータープロファイルがデプロイメント内に存在している。
手順
OpenShift AI ダッシュボードから、Settings → Workbench images をクリックします。
Workbench images ページが表示されます。以前にインポートしたワークベンチイメージが表示されます。以前にインポートしたワークベンチイメージを有効または無効にするには、関連するワークベンチイメージを含む行で、Enable 列のトグルをクリックします。
アクションメニュー (⋮) をクリックし、リストから Edit を選択します。
Edit accelerator profile ダイアログが開きます。
- Name フィールドで、アクセラレータープロファイル名を更新します。
- Identifier フィールドで、アクセラレータープロファイルに関連付けられたハードウェアアクセラレーターを識別する一意の文字列を更新します (該当する場合)。
- オプション: Description フィールドで、アクセラレータープロファイルを更新します。
- 作成直後にアクセラレータープロファイルを有効または無効にするには、Enable 列のトグルをクリックします。
オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。
Add toleration をクリックします。
Add toleration ダイアログが開きます。
Operator リストから、次のオプションのいずれかを選択します。
- Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
- Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
Effect リストから、次のオプションのいずれかを選択します。
- None
- NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
- PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
- NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
- Key フィールドに、toleration キーを入力します。キーは、最大 253 文字までの任意の文字列になります。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
- Value フィールドに toleration 値を入力します。値は最大 63 文字までの任意の文字列になります。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。
- Forever - Pod はノードに永続的にバインドされたままになります。
- Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
- Add をクリックします。
アクセラレータープロファイルに既存の toleration が含まれている場合は、それらを編集できます。
- 編集する toleration を含む行のアクションメニュー (⋮) をクリックし、リストから Edit を選択します。
- 該当するフィールドに入力して、toleration の詳細を更新します。
- Update をクリックします。
- Update accelerator profile をクリックします。
検証
- アクセラレータープロファイルに新しい識別情報がある場合、その情報は Start a basic workbench ページの Accelerator リストに表示されます。
6.4. アクセラレータープロファイルの削除 リンクのコピーリンクがクリップボードにコピーされました!
不要になったアクセラレータープロファイルを破棄するには、そのプロファイルを削除してダッシュボードに表示されないようにします。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- 削除するアクセラレータープロファイルがデプロイメント内に存在する。
手順
OpenShift AI ダッシュボードから、Settings → Accelerator profiles をクリックします。
Accelerator profiles ページが開き、既存のアクセラレータープロファイルが表示されます。
削除するアクセラレータープロファイルの横にあるアクションメニュー (⋮) をクリックし、Delete をクリックします。
Delete accelerator profile ダイアログが開きます。
- アクセラレータープロファイルの名前をテキストフィールドに入力して、削除することを確定します。
- Delete をクリックします。
検証
- アクセラレータープロファイルは、Accelerator profiles ページに表示されなくなりました。
6.5. ワークベンチイメージ用の推奨アクセラレーターの設定 リンクのコピーリンクがクリップボードにコピーされました!
データサイエンティストに最適なアクセラレーターを指定できるように、ダッシュボードに表示される推奨タグを設定できます。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- デプロイメント内に既存のワークベンチイメージがある。
- OpenShift AI で GPU サポートを有効にした。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
手順
OpenShift AI ダッシュボードから、Settings → Workbench images をクリックします。
Workbench images ページが表示されます。以前にインポートしたワークベンチイメージが表示されます。
アクションメニュー (⋮) をクリックし、リストから Edit を選択します。
Update workbench image ダイアログが開きます。
- Accelerator identifier リストから識別子を選択し、ワークベンチイメージで推奨されているとおりにアクセラレーターを設定します。ワークベンチイメージにアクセラレーター識別子が 1 つだけ含まれている場合は、識別子名がデフォルトで表示されます。
Update をクリックします。
注記ワークベンチイメージのアクセラレーター識別子をすでに設定している場合は、関連付けられたアクセラレータープロファイルまたはハードウェアプロファイルを作成して、ワークベンチイメージに推奨されるアクセラレーターを指定できます。これを行うには、ワークベンチイメージを含む行で Create profile をクリックし、関連するフィールドに入力します。ワークベンチイメージにアクセラレーターの識別子が含まれていない場合は、関連付けられたアクセラレータープロファイルまたはハードウェアプロファイルを作成する前に、手動で設定する必要があります。
重要デフォルトでは、ハードウェアプロファイルはダッシュボードのナビゲーションメニューとユーザーインターフェイスに表示されませんが、アクセラレータープロファイルは表示されます。非推奨となったアクセラレータープロファイル機能に関連付けられたユーザーインターフェイスコンポーネントは、引き続き表示されます。ハードウェアプロファイルを有効にすると、Accelerator profiles リストの代わりに Hardware profiles リストが表示されます。ダッシュボードのナビゲーションメニューの Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられたユーザーインターフェイスコンポーネントを表示するには、OpenShift の
OdhDashboardConfigカスタムリソース (CR) で、disableHardwareProfiles値をfalseに設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
検証
- データサイエンティストが特定のワークベンチイメージを持つアクセラレーターを選択すると、対応するアクセラレーターの横に互換性を示すタグが表示されます。
6.6. ランタイムを提供するための推奨アクセラレーターの設定 リンクのコピーリンクがクリップボードにコピーされました!
データサイエンティストに最適なアクセラレーターを指定するために、提供するランタイムに推奨のアクセラレータータグを設定できます。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- OpenShift AI で GPU サポートを有効にした。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
手順
OpenShift AI ダッシュボードから、Settings → Serving runtimes をクリックします。
Serving runtimes ページが開き、OpenShift AI デプロイメントにすでにインストールされ有効になっているモデル提供ランタイムが表示されます。デフォルトでは、OpenVINO Model Server ランタイムがプリインストールされ、OpenShift AI で有効になっています。
推奨されるアクセラレータータグを追加するカスタムランタイムを編集し、アクションメニュー (⋮) をクリックして Edit を選択します。
埋め込み YAML エディターを含むページが開きます。
注記デフォルトで OpenShift AI に含まれる OpenVINO Model Server ランタイムを直接編集することはできません。ただし、このランタイムを 複製 し、複製したバージョンを編集することはできます。その後、編集したクローンを新しいカスタムランタイムとして追加できます。これを行うには、OpenVINO Model Server の横にあるアクションメニューをクリックし、Duplicate を選択します。
エディターで YAML コードを入力し、アノテーション
opendatahub.io/recommended-acceleratorsを適用します。この例の抜粋は、NVIDIA GPU アクセラレーターの推奨タグを設定するためのアノテーションを示しています。metadata: annotations: opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
metadata: annotations: opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'Copy to Clipboard Copied! Toggle word wrap Toggle overflow - Update をクリックします。
検証
- データサイエンティストが特定のサービスランタイムを備えたアクセラレーターを選択すると、対応するアクセラレーターの横に互換性を示すタグが表示されます。
第7章 ハードウェアプロファイルの使用 リンクのコピーリンクがクリップボードにコピーされました!
現在、ハードウェアプロファイルは、Red Hat OpenShift AI でテクノロジープレビュー機能としてのみ利用可能です。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行いフィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
Red Hat OpenShift AI では、ハードウェアアクセラレーター、CPU のみのノード、特殊なメモリー割り当てなど、特定のハードウェア設定を持つワーカーノードでユーザーワークロードをスケジュールできます。ハードウェアプロファイルを使用すると、これらのハードウェアリソースを明示的に定義できるため、ワークロードを特定のノードに正確にターゲットを絞り、リソース管理の効率を高めることができます。
デフォルトでは、この機能はダッシュボードのナビゲーションメニューに表示されません。ダッシュボードのナビゲーションメニューに Settings → Hardware profiles オプションと、ハードウェアプロファイルに関連付けられた他のユーザーインターフェイスコンポーネントを表示するには、OpenShift の OdhDashboardConfig カスタムリソース (CR) で、disableHardwareProfiles 値を false に設定します。ダッシュボード設定オプションの設定に関する詳細は、ダッシュボードのカスタマイズ を参照してください。
ハードウェアプロファイルを使用すると、ハードウェア識別子、明示的なリソース割り当て制限 (CPU、メモリー、アクセラレーター)、toleration、およびノードセレクターを含むプロファイルを作成できます。これらの機能は、複数の GPU タイプ、CPU のみの設定、メモリーを大量に消費するワークロード、さらにはシングルノードのデプロイメントなど、異種ハードウェア環境で特に役立ちます。このターゲットを絞ったスケジューリングにより、特に多様なハードウェアを備えたクラスターなどの複雑な環境では、リソースの使用率が大幅に向上し、オーバーヘッドが削減され、コストが最適化されます。
使用を開始するには、クラスター管理者に連絡して、クラスターで使用可能なハードウェアリソースを確認してください。
データサイエンティストが OpenShift AI で使用する特定のハードウェアを設定するには、関連するハードウェアプロファイルを作成する必要があります。ハードウェアプロファイルは、HardwareProfile リソースを持ち、ハードウェア仕様を定義する、OpenShift 上のカスタムリソース定義 (CRD) です。ハードウェアプロファイルを作成および管理するには、OpenShift AI ダッシュボードで Settings → Hardware profiles を選択します。
ハードウェアプロファイルを作成して有効にすると、ユーザーは、ワークベンチ、モデルサービングワークロード、パイプラインのデプロイ時に、必要に応じてユーザーインターフェイスでハードウェアプロファイルを選択できるようになります。
7.1. ハードウェアプロファイルの作成 リンクのコピーリンクがクリップボードにコピーされました!
データサイエンティストが OpenShift AI で使用する特定のハードウェアを設定するには、関連するハードウェアプロファイルを作成する必要があります。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- 関連するハードウェアがインストールされており、それが環境で検出されていることを確認した。
手順
OpenShift AI ダッシュボードから、Settings → Hardware profiles をクリックします。
Hardware profiles ページが表示され、既存のハードウェアプロファイルが表示されます。既存のハードウェアプロファイルを有効または無効にするには、関連するハードウェアプロファイルが含まれる行で、Enabled 列のトグルをクリックします。
Create hardware profile をクリックします。
Create hardware profile ページが表示されます。
- Name フィールドに、ハードウェアプロファイルの名前を入力します。
- オプション: Kubernetes リソースのデフォルト名を変更するには、Edit resource name をクリックし、Resource name フィールドに名前を入力します。リソース名は作成後に編集できません。
- オプション: Description フィールドに、ハードウェアプロファイルの説明を入力します。
Visibility セクションで、ハードウェアプロファイルの表示レベルを設定します。
- OpenShift AI のすべての領域でハードウェアプロファイルにアクセスするには、Visible everywhere ラジオボタンを選択したままにします。
- Limited visibility ラジオボタンを選択して、データサイエンティストがハードウェアプロファイルを使用できる OpenShift AI の領域を制限します。
オプション: リソース要求と制限を設定します。
Add resource をクリックします。
Add resource ダイアログが開きます。
- Resource label フィールドに、一意のリソースラベルを入力します。
- Resource identifier フィールドに、一意のリソース識別子を入力します。
- Resource type フィールドで、リストからリソースタイプを選択します。
- Default フィールドに、デフォルトのリソース要求制限を入力します。この値は、最小値と最大値と等しいか、その範囲内である必要があります。
- Minimum allowed フィールドに、ユーザーが要求できるリソースの最小数を入力します。
Maximum allowed フィールドに、ユーザーが要求できるリソースの最大数を入力します。
- 特定の最大要求制限を設定するには、Set maximum limit ラジオボタンをクリックし、値を入力します。
- 最大要求制限を設定しない場合は、No maximum limit ラジオボタンをクリックします。
- Add をクリックします。
Resource allocation セクションで、Workload allocation strategy を選択して、ワークロードをノードに割り当てる方法を設定します。
- ローカルキュー
- Kueue を使用してジョブを自動的にキューに登録し、ワークロードの優先度に基づいてリソースを管理するには、Local queue を選択します。このオプションは、クラスターが Kueue を使用してワークロードを管理するように設定されている場合にのみ使用できます。
Local queue フィールドに、このハードウェアプロファイルが使用する
LocalQueueの名前を入力します。注記グローバルスコープのプロファイルの場合は、OpenShift AI Operator によって作成されたデフォルトの
LocalQueueなど、すべてのユーザープロジェクトに存在するLocalQueue名を使用します。- オプション: Workload priority リストから、このプロファイルを使用するジョブの優先度を選択します。リソースが限られている場合、優先度の高いワークロードは優先度の低いワークロードよりも先に承認されます。
- ノードセレクターと toleration
- ノードセレクターと toleration を手動で追加するには、Node selectors and tolerations を選択します。
オプション: 一致するラベルを持つノードに Pod をスケジュールするためのノードセレクターを追加します。
Add node selector をクリックします。
Add node selector ダイアログが開きます。
- Key フィールドにノード選択キーを入力します。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
- Value フィールドにノード選択値を入力します。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
- Add をクリックします。
オプション: Pod に toleration を追加し、その Pod が一致する taint にスケジュールされるようにします。
Add toleration をクリックします。
Add toleration ダイアログが開きます。
Operator リストから、次のオプションのいずれかを選択します。
- Equal - key/value/effect のパラメーターが一致する必要があります。これはデフォルトになります。
- Exists - key/effect パラメーターが一致する必要があります。値パラメーターは、どの値にも一致する空白のままにする必要があります。
Effect リストから、次のオプションのいずれかを選択します。
- None
- NoSchedule - taint と一致しない新しい Pod は、そのノードにスケジュールされません。ノードの既存 Pod はそのままになります。
- PreferNoSchedule - taint に一致しない新しい Pod がそのノードにスケジュールされる可能性はありますが、スケジューラーは試行しません。ノードの既存 Pod はそのままになります。
- NoExecute - taint に一致しない新しい Pod をそのノードにスケジュールすることはできません。一致する toleration を持たないノードの既存 Pod は削除されます。
- Key フィールドに、toleration キーを入力します。キーは文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
- Value フィールドに toleration 値を入力します。値は文字または数字で開始する必要があり、文字、数字、ハイフン、ドットおよびアンダースコアを含めることができます。
Toleration Seconds セクションで、次のオプションのいずれかを選択して、ノード条件があるノードに Pod がバインドされ続ける時間を指定します。
- Forever - Pod はノードに永続的にバインドされたままになります。
- Custom value - 値を秒単位で入力して、ノード条件を持つノードに Pod がバインドされ続ける時間を定義します。
- Add をクリックします。
- Create hardware profile をクリックします。
検証
- ハードウェアプロファイルは、Hardware profiles ページに表示されます。
- ハードウェアプロファイルは、Create workbench ページの Hardware profiles リストに表示されます。
-
ハードウェアプロファイルは、
HardwareProfileカスタムリソース定義 (CRD) の詳細ページの Instances タブに表示されます。
7.2. ハードウェアプロファイルの更新 リンクのコピーリンクがクリップボードにコピーされました!
デプロイメント内の既存のハードウェアプロファイルを更新できます。表示名、識別子、説明などの重要な識別情報を変更できます。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- ハードウェアプロファイルがデプロイメント内に存在する。
手順
OpenShift AI ダッシュボードから、Settings → Hardware profiles をクリックします。
Hardware profiles ページが開きます。既存のハードウェアプロファイルが表示されます。ハードウェアプロファイルを有効または無効にするには、関連するハードウェアプロファイルが含まれる行で、Enabled 列のトグルをクリックします。
アクションメニュー (⋮) をクリックし、リストから Edit を選択します。
Edit hardware profile ダイアログが開きます。
- 変更を加えます。
- Update hardware profile をクリックします。
検証
- ハードウェアプロファイルに新しい識別情報がある場合、その情報は Create workbench ページの Hardware profile リストに表示されます。
7.3. ハードウェアプロファイルの削除 リンクのコピーリンクがクリップボードにコピーされました!
不要になったハードウェアプロファイルを破棄するには、そのプロファイルを削除してダッシュボードに表示されないようにします。
前提条件
- OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- 削除するハードウェアプロファイルがデプロイメント内に存在する。
手順
OpenShift AI ダッシュボードから、Settings → Hardware profiles をクリックします。
Hardware profiles ページが表示され、既存のハードウェアプロファイルが表示されます。
削除するハードウェアプロファイルの横にあるアクションメニュー (⋮) をクリックし、Delete をクリックします。
Delete hardware profile ダイアログが開きます。
- ハードウェアプロファイルの名前をテキストフィールドに入力し、削除することを確定します。
- Delete をクリックします。
検証
- ハードウェアプロファイルは、Hardware profiles ページに表示されなくなります。
第8章 GPU タイムスライスについて リンクのコピーリンクがクリップボードにコピーされました!
GPU タイムスライシングを使用して、処理時間を短く分割して交互にすることで、複数のワークロードが単一の物理 GPU を共有できるようになります。この方法により、リソース使用率が向上し、アイドル状態の GPU 時間が短縮され、複数のユーザーが OpenShift AI で AI/ML ワークロードを同時に実行できるようになります。NVIDIA GPU Operator は、各物理 GPU の GPU スライスの数を定義する time-slicing-config ConfigMap に基づいてこのスケジュールを管理します。
タイムスライスは、マルチインスタンス GPU (MIG) パーティショニングとは異なります。MIG はメモリーと障害を分離しますが、タイムスライスは厳密な分離なしにワークロード間で同じ GPU メモリーを共有します。タイムスライスは、軽量の推論タスク、データの前処理、および完全な GPU 分離が不要なその他のシナリオに最適です。
GPU タイムスライスを使用する場合は、次の点を考慮してください。
- メモリー共有: すべてのワークロードは GPU メモリーを共有します。1 つのワークロードでメモリーが多く使用されると、他のワークロードに影響を及ぼす可能性があります。
- パフォーマンスのトレードオフ: タイムスライスでは複数のワークロードで GPU を共有できますが、MIG のように厳密にリソースが分離されません。
- GPU 互換性: タイムスライスは特定の NVIDIA GPU でサポートされています。
8.1. GPU タイムスライスを有効にする リンクのコピーリンクがクリップボードにコピーされました!
OpenShift AI で GPU タイムスライスを有効にするには、複数のワークロードが単一の GPU を共有できるように NVIDIA GPU Operator を設定する必要があります。
前提条件
- OpenShift にログインしている。
-
OpenShift の
cluster-adminロールを持っている。 - NVIDIA GPU Operator のインストールおよび設定が済んでいる。
- デプロイメント内の関連ノードに NVIDIA GPU が含まれる。
- デプロイメント内の GPU はタイムスライスをサポートしている。
-
OpenShift CLI のインストール の説明に従って、OpenShift コマンドラインインターフェイス (
oc) がインストールされている。
手順
GPU Operator が使用する namespace に、名前が
time-slicing-configの config map を作成します。NVIDIA GPU の場合、これはnvidia-gpu-operatornamespace です。- OpenShift Web コンソールにクラスター管理者としてログインします。
- Administrator パースペクティブで、Workloads → ConfigMaps に移動します。
- ConfigMap の詳細ページで、Create Config Map ボタンをクリックします。
- Create Config Map ページの Configure via で YAML view を選択します。
Data フィールドに、関連する GPU の YAML コードを入力します。以下は、NVIDIA T4 GPU の
time-slicing-configconfig map の例です。注記- レプリカの数を変更して、各物理 GPU で使用できる GPU スライスの数を制御できます。
- レプリカを増やすと、ワークロードが利用可能な GPU メモリーを超えた場合にメモリー不足 (OOM) エラーのリスクが高まる可能性があります。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - Create をクリックします。
time-slicing-configconfig map を参照するようにgpu-cluster-policyクラスターポリシーを更新します。- Administrator パースペクティブで、Operators → Installed Operators に移動します。
- NVIDIA GPU Operator を検索し、Operator 名をクリックして Operator details ページを開きます。
- ClusterPolicy タブをクリックします。
-
リストから
gpu-cluster-policyリソースを選択して、ClusterPolicy の詳細ページを開きます。 YAML タブをクリックし、
time-slicing-configconfig map を参照するようにspec.devicePluginセクションを更新します。以下は、NVIDIA T4 GPU のgpu-cluster-policyクラスターポリシーの例です。Copy to Clipboard Copied! Toggle word wrap Toggle overflow - Save をクリックします。
タイムスライスを適用する関連マシンセットにラベルを付けます。
- Administrator パースペクティブで、Compute → Machine Sets に移動します。
- リストから GPU タイムスライスに設定されたマシンを選択します。
MachineSet の詳細ページで、YAML タブをクリックし、
spec.template.spec.metadata.labelsセクションを更新して、関連するマシンセットにラベルを付けます。以下は、NVIDIA T4 GPU に適切なマシンラベルが設定されたマシンの例です。Copy to Clipboard Copied! Toggle word wrap Toggle overflow - Save をクリックします。
検証
- OpenShift CLI にログインします。
config map が正しく適用されていることを確認します。
oc get configmap time-slicing-config -n nvidia-gpu-operator -o yaml
oc get configmap time-slicing-config -n nvidia-gpu-operator -o yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow クラスターポリシーにタイムスライス設定が含まれていることを確認します。
oc get clusterpolicy gpu-cluster-policy -o yaml
oc get clusterpolicy gpu-cluster-policy -o yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow ラベルがノードに適用されていることを確認します。
oc get nodes --show-labels | grep nvidia.com/device-plugin.config
oc get nodes --show-labels | grep nvidia.com/device-plugin.configCopy to Clipboard Copied! Toggle word wrap Toggle overflow
ワークロードが GPU を共有していないように見える場合は、NVIDIA デバイスプラグインが実行されており、正しいラベルが適用されていることを確認します。