第7章 LAB-tuning 用のハードウェアプロファイルの作成
LAB-tuning 実行の起動時にユーザーが選択できる OpenShift AI で GPU ハードウェアプロファイルを設定します。
OpenShift AI で LAB-tuning ワークロードを実行するには、GPU ハードウェアプロファイルが必要です。LAB-tuning では、GPU リソースを持つノードでスケジュールする必要がある分散トレーニングを使用します。GPU ハードウェアプロファイルを使用すると、ユーザーはパイプラインを起動するときに特定の GPU 対応ワーカーノードをターゲットにすることができ、トレーニングワークロードが互換性のあるハードウェア上で実行されるようになります。
前提条件
- 管理者権限を持つユーザーとして OpenShift AI にログインしている。
 - 関連するハードウェアがインストールされており、それが環境で検出されていることを確認した。
 
手順
ハードウェアプロファイルの作成 で説明されている手順に従って
LAB-tuningハードウェアプロファイルを作成します。その際に、ご自身のクラスター環境に合わせて次の設定を調整してください。Expand 設定 値 CPU: Default
4 コア
CPU: Minimum allowed
2 コア
CPU: Maximum allowed
4 コア
Memory: Maximum allowed
250 GiB 以上
Resource label
nvidia.com/gpuResource identifier
nvidia.com/gpuResource type
AcceleratorNode selector key (オプション)
node.kubernetes.io/instance-typeNode selector value
a2-ultragpu-2gToleration operator (オプション)
ExistsToleration key
nvidia.com/gpuToleration effect
NoSchedule- Enable 列にチェックマークを付けて、新しいハードウェアプロファイルが使用可能であることを確認します。