第7章 LAB-tuning 用のハードウェアプロファイルの作成
LAB-tuning 実行の起動時にユーザーが選択できる OpenShift AI で GPU ハードウェアプロファイルを設定します。
OpenShift AI で LAB-tuning ワークロードを実行するには、GPU ハードウェアプロファイルが必要です。LAB-tuning では、GPU リソースを持つノードでスケジュールする必要がある分散トレーニングを使用します。GPU ハードウェアプロファイルを使用すると、ユーザーはパイプラインを起動するときに特定の GPU 対応ワーカーノードをターゲットにすることができ、トレーニングワークロードが互換性のあるハードウェア上で実行されるようになります。
前提条件
- 管理者権限を持つユーザーとして OpenShift AI にログインしている。
- 関連するハードウェアがインストールされており、それが環境で検出されていることを確認した。
手順
ハードウェアプロファイルの作成 で説明されている手順に従って
LAB-tuning
ハードウェアプロファイルを作成します。その際に、ご自身のクラスター環境に合わせて次の設定を調整してください。Expand 設定 値 CPU: Default
4 コア
CPU: Minimum allowed
2 コア
CPU: Maximum allowed
4 コア
Memory: Maximum allowed
250 GiB 以上
Resource label
nvidia.com/gpu
Resource identifier
nvidia.com/gpu
Resource type
Accelerator
Node selector key (オプション)
node.kubernetes.io/instance-type
Node selector value
a2-ultragpu-2g
Toleration operator (オプション)
Exists
Toleration key
nvidia.com/gpu
Toleration effect
NoSchedule
- Enable 列にチェックマークを付けて、新しいハードウェアプロファイルが使用可能であることを確認します。