2.2. NVIDIA GPU の有効化
以下の図は、OpenShift で GPU アーキテクチャーがどのように有効になっているかを示しています。
図2.1 NVIDIA GPU の有効化
MIG は、NVIDIA Ampere 生成で始まる GPU でサポートされています。MIG をサポートする GPU のリストは、NVIDIA MIG ユーザーガイド を参照してください。
2.2.1. GPU とベアメタル リンクのコピーリンクがクリップボードにコピーされました!
NVIDIA 認定のベアメタルサーバーに OpenShift Container Platform をデプロイできますが、いくつかの制限があります。
- コントロールプレーンノードは CPU ノードにできます。
AI/ML ワークロードがワーカーノードで実行される場合、そのワーカーノードは GPU ノードである必要があります。
さらに、ワーカーノードは 1 つ以上の GPU をホストできますが、すべて同じタイプである必要があります。たとえば、ノードには 2 つの NVIDIA A100 GPU が存在することは可能ですが、A100 GPU と T4 GPU を 1 つずつ備えたノードはサポートされません。Kubernetes の NVIDIA デバイスプラグインは、同じノード上で異なる GPU モデルの組み合わせをサポートしません。
- OpenShift を使用する場合は、1 台または 3 台以上のサーバーが必要な点に注意してください。2 台のサーバーを含むクラスターはサポートされません。単一サーバーのデプロイメントはシングルノード openShift (SNO) と呼ばれ、この設定を使用すると、高可用性 OpenShift 環境が得られません。
以下のいずれかの方法で、コンテナー化された GPU にアクセスできます。
- GPU パススルー
- マルチインスタンス GPU (MIG)