第7章 NVIDIA GPU アーキテクチャーの概要
NVIDIA は、OpenShift Container Platform でのグラフィックスプロセッシングユニット (GPU) リソースの使用をサポートしています。OpenShift Container Platform は、大規模な Kubernetes クラスターのデプロイと管理用に Red Hat が開発およびサポートする、セキュリティーを重視して強化された Kubernetes プラットフォームです。OpenShift Container Platform には Kubernetes の拡張機能が含まれているため、ユーザーはが簡単に NVIDIA GPU リソースを設定し、それを使用してワークロードを高速化できます。
NVIDIA GPU Operator は、OpenShift Container Platform 内の Operator フレームワークを活用して、GPU で高速化されたワークロードの実行に必要な NVIDIA ソフトウェアコンポーネントの完全なライフサイクルを管理します。
これらのコンポーネントには、NVIDIA ドライバー (CUDA を有効にするため)、GPU 用の Kubernetes デバイスプラグイン、NVIDIA Container Toolkit、GPU Feature Discovery (GFD) を使用した自動ノードタグ付け、DCGM ベースのモニタリングなどが含まれます。
NVIDIA GPU Operator をサポートしているのは NVIDIA だけです。NVIDIA からサポートを受ける方法は、NVIDIA サポートの利用方法 を参照してください。
7.1. NVIDIA GPU の前提条件
- 1 つ以上の GPU ワーカーノードを備えた OpenShift クラスターが稼働している。
-
必要な手順を実行するために
cluster-admin
として OpenShift クラスターにアクセスできる。 -
OpenShift CLI (
oc
) がインストールされている。 -
Node Feature Discovery (NFD) Operator をインストールし、
nodefeaturediscovery
インスタンスを作成している。