13.2. Installation du tableau de bord d'administration des GPU NVIDIA
Installez le plugin NVIDIA GPU en utilisant Helm sur la console OpenShift Container Platform (OCP) pour ajouter des capacités GPU.
Le plugin OpenShift Console NVIDIA GPU fonctionne comme un bundle distant pour la console OCP. Pour exécuter le plugin OpenShift Console NVIDIA GPU, une instance de la console OCP doit être en cours d'exécution.
Conditions préalables
- Red Hat OpenShift 4.11
- Opérateur GPU NVIDIA
- Tige
Procédure
Utilisez la procédure suivante pour installer le plugin NVIDIA GPU d'OpenShift Console.
Ajouter le dépôt Helm :
helm repo add rh-ecosystem-edge https://rh-ecosystem-edge.github.io/console-plugin-nvidia-gpu
$ helm repo add rh-ecosystem-edge https://rh-ecosystem-edge.github.io/console-plugin-nvidia-gpu
Copy to Clipboard Copied! Toggle word wrap Toggle overflow helm repo update
$ helm repo update
Copy to Clipboard Copied! Toggle word wrap Toggle overflow Installez la carte Helm dans l'espace de noms par défaut de l'opérateur NVIDIA GPU :
helm install -n nvidia-gpu-operator console-plugin-nvidia-gpu rh-ecosystem-edge/console-plugin-nvidia-gpu
$ helm install -n nvidia-gpu-operator console-plugin-nvidia-gpu rh-ecosystem-edge/console-plugin-nvidia-gpu
Copy to Clipboard Copied! Toggle word wrap Toggle overflow Exemple de sortie
Copy to Clipboard Copied! Toggle word wrap Toggle overflow Le tableau de bord s'appuie principalement sur les métriques Prometheus exposées par l'exportateur NVIDIA DCGM, mais les métriques exposées par défaut ne sont pas suffisantes pour que le tableau de bord rende les jauges nécessaires. C'est pourquoi l'exportateur DGCM est configuré pour exposer un ensemble personnalisé de mesures, comme indiqué ici.
Copy to Clipboard Copied! Toggle word wrap Toggle overflow Installez le ConfigMap et modifiez le CR de la politique de cluster de l'opérateur NVIDIA pour ajouter ce ConfigMap à la configuration de l'exportateur DCGM. L'installation du ConfigMap est effectuée par la nouvelle version du plugin de console NVIDIA GPU Helm Chart, mais l'édition du CR ClusterPolicy est effectuée par l'utilisateur.
Voir les ressources déployées :
oc -n nvidia-gpu-operator get all -l app.kubernetes.io/name=console-plugin-nvidia-gpu
$ oc -n nvidia-gpu-operator get all -l app.kubernetes.io/name=console-plugin-nvidia-gpu
Copy to Clipboard Copied! Toggle word wrap Toggle overflow Exemple de sortie
Copy to Clipboard Copied! Toggle word wrap Toggle overflow