12.3. 使用 NVIDIA GPU 管理仪表板


部署 OpenShift Console NVIDIA GPU 插件后,使用您的登录凭证登录到 OpenShift Container Platform Web 控制台来访问 Administrator 视角。

要查看更改,您需要刷新控制台来查看 Compute 下的 GPU 选项卡。

12.3.1. 查看集群 GPU 概述

您可以通过在 Overview 页面中选择 Overview 部分来查看集群 GPU 的状态。

Overview 页面提供有关集群 GPU 的信息,包括:

  • GPU 供应商详情
  • GPU 的状态
  • GPU 的集群使用

12.3.2. 查看 GPU 仪表板

您可以通过在 OpenShift 控制台的 Compute 部分选择 GPU 来查看 NVIDIA GPU 管理仪表板。

GPU 仪表板中的图表包括:

  • GPU 使用率 :显示图形引擎处于活跃状态的时间比,且基于 DCGM_FI_PROF_GR_ENGINE_ACTIVE 指标。
  • 内存使用率 :显示 GPU 使用的内存,并基于 DCGM_FI_DEV_MEM_COPY_UTIL 指标。
  • 编码利用率 :显示视频编码利用率,并基于 DCGM_FI_DEV_ENC_UTIL 指标。
  • 解码器使用率Encoder 使用率显示利用率的视频解码器速率,并基于 DCGM_FI_DEV_DEC_UTIL 指标。
  • 功耗 :显示位于 Watts 中的 GPU 的平均功耗,并且基于 DCGM_FI_DEV_POWER_USAGE 指标。
  • GPU 温度 :显示当前 GPU 温度,并基于 DCGM_FI_DEV_GPU_TEMP 指标。最大设置为 110,这是一排数,因为实际数量不是通过指标公开的。
  • GPU 时钟速度 :显示 GPU 使用的平均时钟速度,并基于 DCGM_FI_DEV_SM_CLOCK 指标。
  • 内存时钟速度 :显示内存使用的平均时钟速度,且基于 DCGM_FI_DEV_MEM_CLOCK 指标。

12.3.3. 查看 GPU 指标

您可以通过选择每个 GPU 底部的指标来查看 GPU 的指标来查看 Metrics 页面。

在 Metrics 页面中,您可以:

  • 为指标指定刷新率
  • 添加、运行、禁用和删除查询
  • 插入指标
  • 重置放大视图
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.