第5章 NVIDIA GPU アーキテクチャーの概要
NVIDIA は、Red Hat OpenShift Service on AWS クラシックアーキテクチャーでのグラフィックスプロセッシングユニット (GPU) リソースの使用をサポートしています。Red Hat OpenShift Service on AWS クラシックアーキテクチャーは、大規模な Kubernetes クラスターの導入と管理を目的として Red Hat が開発およびサポートする、セキュリティーを重視して強化された Kubernetes プラットフォームです。Red Hat OpenShift Service on AWS クラシックアーキテクチャーには Kubernetes の機能強化が含まれており、ユーザーは NVIDIA GPU リソースを簡単に設定して使用し、ワークロードを高速化できます。
NVIDIA GPU Operator は、Red Hat OpenShift Service on AWS クラシックアーキテクチャー内の Operator フレームワークを活用して、GPU アクセラレーションワークロードの実行に必要な NVIDIA ソフトウェアコンポーネントのライフサイクル全体を管理します。
これらのコンポーネントには、NVIDIA ドライバー (CUDA を有効にするため)、GPU 用の Kubernetes デバイスプラグイン、NVIDIA Container Toolkit、GPU Feature Discovery (GFD) を使用した自動ノードタグ付け、DCGM ベースのモニタリングなどが含まれます。
NVIDIA GPU Operator をサポートしているのは NVIDIA だけです。NVIDIA からサポートを受ける方法は、NVIDIA サポートの利用方法 を参照してください。
5.1. NVIDIA GPU の前提条件 リンクのコピーリンクがクリップボードにコピーされました!
- 1 つ以上の GPU ワーカーノードを備えた OpenShift クラスターが稼働している。
-
必要な手順を実行するために
cluster-admin
として OpenShift クラスターにアクセスできる。 -
OpenShift CLI (
oc
) がインストールされている。 -
Node Feature Discovery (NFD) Operator をインストールし、
nodefeaturediscovery
インスタンスを作成している。