12.3. 使用 NVIDIA GPU 管理仪表板
部署 OpenShift Console NVIDIA GPU 插件后,使用您的登录凭证登录到 OpenShift Container Platform Web 控制台来访问 Administrator 视角。
要查看更改,您需要刷新控制台来查看 Compute 下的 GPU 选项卡。
12.3.1. 查看集群 GPU 概述
您可以通过在 Overview 页面中选择 Overview 部分来查看集群 GPU 的状态。
Overview 页面提供有关集群 GPU 的信息,包括:
- GPU 供应商详情
- GPU 的状态
- GPU 的集群使用
12.3.2. 查看 GPU 仪表板
您可以通过在 OpenShift 控制台的 Compute 部分选择 GPU 来查看 NVIDIA GPU 管理仪表板。
GPU 仪表板中的图表包括:
-
GPU 使用率 :显示图形引擎处于活跃状态的时间比,且基于
DCGM_FI_PROF_GR_ENGINE_ACTIVE
指标。 -
内存使用率 :显示 GPU 使用的内存,并基于
DCGM_FI_DEV_MEM_COPY_UTIL
指标。 -
编码利用率 :显示视频编码利用率,并基于
DCGM_FI_DEV_ENC_UTIL
指标。 -
解码器使用率:Encoder 使用率显示利用率的视频解码器速率,并基于
DCGM_FI_DEV_DEC_UTIL
指标。 -
功耗 :显示位于 Watts 中的 GPU 的平均功耗,并且基于
DCGM_FI_DEV_POWER_USAGE
指标。 -
GPU 温度 :显示当前 GPU 温度,并基于
DCGM_FI_DEV_GPU_TEMP
指标。最大设置为110
,这是一排数,因为实际数量不是通过指标公开的。 -
GPU 时钟速度 :显示 GPU 使用的平均时钟速度,并基于
DCGM_FI_DEV_SM_CLOCK
指标。 -
内存时钟速度 :显示内存使用的平均时钟速度,且基于
DCGM_FI_DEV_MEM_CLOCK
指标。
12.3.3. 查看 GPU 指标
您可以通过选择每个 GPU 底部的指标来查看 GPU 的指标来查看 Metrics 页面。
在 Metrics 页面中,您可以:
- 为指标指定刷新率
- 添加、运行、禁用和删除查询
- 插入指标
- 重置放大视图