2.2.15. Node Feature Discovery Operator のデプロイ
GPU 対応ノードを作成したら、スケジュールできるように GPU 対応ノードを検出する必要があります。これを行うには、Node Feature Discovery (NFD) Operator をインストールします。
NFD Operator は、ノード内のハードウェアデバイス機能を識別します。OpenShift Container Platform で使用できるようにインフラストラクチャーノードのハードウェアリソースを識別してカタログ化するという一般的な問題を解決します。
手順
- OpenShift Container Platform コンソールのソフトウェアカタログから Node Feature Discovery Operator をインストールします。
-
NFD Operator をインストールした後、インストールされた Operator リストから Node Feature Discovery を選択し、Create instance を選択します。これにより、
openshift-nfdnamespace に、nfd-masterPod とnfd-workerPod (各コンピュートノードに 1 つのnfd-workerPod) がインストールされます。 次のコマンドを実行して、Operator がインストールされ、実行されていることを確認します。
$ oc get pods -n openshift-nfd出力例
NAME READY STATUS RESTARTS AGE nfd-controller-manager-8646fcbb65-x5qgk 2/2 Running 7 (8h ago) 1d- コンソールでインストール済みの Operator を参照し、ノード機能検出の作成 を選択します。
-
Create を選択して、NFD カスタムリソースをビルドします。これにより、
openshift-nfd名前空間に NFDPod が作成され、OpenShift Container Platform ノードのハードウェアリソースをポーリングしてカタログ化します。
検証
ビルドが成功したら、次のコマンドを実行して、各ノードで NFD Pod が実行されていることを確認します。
$ oc get pods -n openshift-nfd出力例
NAME READY STATUS RESTARTS AGE nfd-controller-manager-8646fcbb65-x5qgk 2/2 Running 7 (8h ago) 12d nfd-master-769656c4cb-w9vrv 1/1 Running 0 12d nfd-worker-qjxb2 1/1 Running 3 (3d14h ago) 12d nfd-worker-xtz9b 1/1 Running 5 (3d14h ago) 12dNFD Operator は、ベンダー PCI ID を使用してノード内のハードウェアを識別します。NVIDIA は PCI ID
10deを使用します。次のコマンドを実行して、NFD Operator によって検出された NVIDIA GPU を表示します。
$ oc describe node ip-10-0-132-138.us-east-2.compute.internal | egrep 'Roles|pci'出力例
Roles: worker feature.node.kubernetes.io/pci-1013.present=true feature.node.kubernetes.io/pci-10de.present=true feature.node.kubernetes.io/pci-1d0f.present=trueGPU 対応ノードのノード機能リストに
10deが表示されます。これは、NFD Operator が GPU 対応の MachineSet からノードを正しく識別したことを意味します。
2.2.15.1. 既存の Microsoft Azure クラスターでの Accelerated Networking の有効化 リンクのコピーリンクがクリップボードにコピーされました!
マシンセット YAML ファイルに acceleratedNetworking を追加することで、Azure で Accelerated Networking を有効にすることができます。
前提条件
- Machine API が動作している既存の Microsoft Azure クラスターがある。
手順
以下を
providerSpecフィールドに追加します。providerSpec: value: acceleratedNetworking: true1 vmSize: <azure-vm-size>2 - 1
- この行は Accelerated Networking を有効にします。
- 2
- 4 つ以上の vCPU を含む Azure 仮想マシンのサイズを指定します。仮想マシンのサイズに関する情報は、Microsoft Azure のドキュメント を参照してください。
次のステップ
- 現在実行中のノードで機能を有効にするには、それぞれの既存マシンを置き換える必要があります。これは、各マシンに対して個別に行うか、レプリカをゼロにスケールダウンしてから、必要なレプリカ数にスケールアップして実行できます。
検証
-
Microsoft Azure ポータルで、マシンセットによってプロビジョニングされるマシンの Networking 設定ページを確認し、
Accelerated networkingフィールドがEnabledに設定されていることを確認します。