12.2. 安装 NVIDIA GPU 管理仪表板
通过在 OpenShift Container Platform (OCP) 控制台上使用 Helm 安装 NVIDIA GPU 插件来添加 GPU 功能。
OpenShift Console NVIDIA GPU 插件作为 OCP 控制台的远程捆绑包运行。要运行 OpenShift Console NVIDIA GPU 插件,必须将 OCP 控制台实例正在运行。
先决条件
- Red Hat OpenShift 4.11+
- NVIDIA GPU operator
- Helm
流程
使用以下步骤安装 OpenShift Console NVIDIA GPU 插件。
添加 Helm 仓库:
helm repo add rh-ecosystem-edge https://rh-ecosystem-edge.github.io/console-plugin-nvidia-gpu
$ helm repo add rh-ecosystem-edge https://rh-ecosystem-edge.github.io/console-plugin-nvidia-gpu
Copy to Clipboard Copied! Toggle word wrap Toggle overflow helm repo update
$ helm repo update
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在默认的 NVIDIA GPU Operator 命名空间中安装 Helm Chart:
helm install -n nvidia-gpu-operator console-plugin-nvidia-gpu rh-ecosystem-edge/console-plugin-nvidia-gpu
$ helm install -n nvidia-gpu-operator console-plugin-nvidia-gpu rh-ecosystem-edge/console-plugin-nvidia-gpu
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 仪表板主要依赖于 NVIDIA DCGM Exporter 公开的 Prometheus 指标,但默认公开的指标不足以便仪表板显示所需的量表。因此,DGCM 导出器配置为公开一组自定义指标,如下所示。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 安装 ConfigMap 并编辑 NVIDIA Operator ClusterPolicy CR,以在 DCGM 导出器配置中添加该 ConfigMap。ConfigMap 的安装由 Console Plugin NVIDIA GPU Helm Chart 的新版本完成,但 ClusterPolicy CR 编辑由用户执行。
查看部署的资源:
oc -n nvidia-gpu-operator get all -l app.kubernetes.io/name=console-plugin-nvidia-gpu
$ oc -n nvidia-gpu-operator get all -l app.kubernetes.io/name=console-plugin-nvidia-gpu
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow