第 4 章 监控分布式工作负载


在 OpenShift AI 中,您可以查看分布式工作负载的项目指标,并查看所选项目中所有分布式工作负载的状态。您可以使用这些指标来监控分布式工作负载使用的资源,评估项目资源是否已正确分配,跟踪分布式工作负载的进度,并在需要时识别正确的操作。

注意

数据科学管道工作负载不由分布式工作负载功能管理,不包含在分布式工作负载指标中。

4.1. 查看分布式工作负载的项目指标

在 OpenShift AI 中,您可以查看分布式工作负载的以下项目指标:

  • CPU - 当前被所选项目中所有分布式工作负载使用的 CPU 内核数。
  • memory- 以 gibibytes (GiB)为单位的内存量,供所选项目中的所有分布式工作负载使用。

您可以使用这些指标来监控分布式工作负载使用的资源,并评估项目资源是否已正确分配。

先决条件

  • 已安装 Red Hat OpenShift AI。
  • 在安装 OpenShift AI 的 OpenShift 集群上,启用了用户工作负载监控。
  • 您已登陆到 Red Hat OpenShift AI。
  • 如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如 rhoai-usersrhoai-admins)的一部分。
  • 您的数据科学项目包含分布式工作负载。

流程

  1. 在 OpenShift AI left 导航窗格中,单击 Distributed Workloads Metrics
  2. Project 列表中,选择包含您要监控的分布式工作负载的项目。
  3. Project metrics 选项卡。
  4. 可选: 在 Refresh interval 列表中,选择一个值来指定指标页面上图形的频率,以显示最新的数据。

    您可以选择以下值之一:15 秒 ,30 , 1 分钟,5 分钟 ,15 分钟,30 分钟 ,1 小时,2 小时, 或 1 天

  5. Requested resources 部分中,查看 CPUMemory 图形,以识别分布式工作负载请求的资源,如下所示:

    • 所选项目请求
    • 由所有项目请求,包括无法访问的所选项目和项目
    • 所有项目的共享配额,如集群队列提供

    对于每个资源类型(CPU 和内存),从 Total shared quota 值中减去 所有 projects 值的 Requested,以计算没有请求并可用于所有项目的资源配额量。

  6. 向下滚动到 Top 资源耗时的分布式工作负载 部分,以查看以下图形:

    • 消耗最多 CPU 资源的 5 个分布式工作负载
    • 消耗最多内存的 5 个分布式工作负载

    您还可以识别每个情况下使用的 CPU 或内存量。

  7. 向下滚动以查看 分布式工作负载资源指标表,它列出了所选项目中的所有分布式工作负载,并指示当前资源使用量和每个分布式工作负载的状态。

    在每个表条目中,进度条指示此分布式工作负载当前正在使用请求的 CPU 和内存量。要查看实际使用量和请求 CPU 使用量的数字值(以内核数表示)和内存(以 GiB 为单位),请将光标悬停到每个进度栏上。将实际使用量与请求的使用量进行比较,以评估分布式工作负载配置。如有必要,重新配置分布式工作负载,以减少或增加请求的资源。

验证

Project metrics 选项卡中,图形和表为所选项目中的分布式工作负载提供资源使用数据。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat