第 4 章 监控分布式工作负载
在 OpenShift AI 中,您可以查看分布式工作负载的项目指标,并查看所选项目中所有分布式工作负载的状态。您可以使用这些指标来监控分布式工作负载使用的资源,评估项目资源是否已正确分配,跟踪分布式工作负载的进度,并在需要时识别正确的操作。
数据科学管道工作负载不由分布式工作负载功能管理,不包含在分布式工作负载指标中。
4.1. 查看分布式工作负载的项目指标 复制链接链接已复制到粘贴板!
在 OpenShift AI 中,您可以查看分布式工作负载的以下项目指标:
- CPU - 当前被所选项目中所有分布式工作负载使用的 CPU 内核数。
- memory- 以 gibibytes (GiB)为单位的内存量,供所选项目中的所有分布式工作负载使用。
您可以使用这些指标来监控分布式工作负载使用的资源,并评估项目资源是否已正确分配。
先决条件
- 已安装 Red Hat OpenShift AI。
- 在安装 OpenShift AI 的 OpenShift 集群上,启用了用户工作负载监控。
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如
rhoai-users
或rhoai-admins
)的一部分。 - 您的数据科学项目包含分布式工作负载。
流程
- 在 OpenShift AI left 导航窗格中,单击 Distributed Workloads Metrics。
- 从 Project 列表中,选择包含您要监控的分布式工作负载的项目。
- 点 Project metrics 选项卡。
可选: 在 Refresh interval 列表中,选择一个值来指定指标页面上图形的频率,以显示最新的数据。
您可以选择以下值之一:15 秒 ,30 秒, 1 分钟,5 分钟 ,15 分钟,30 分钟 ,1 小时,2 小时, 或 1 天。
在 Requested resources 部分中,查看 CPU 和 Memory 图形,以识别分布式工作负载请求的资源,如下所示:
- 所选项目请求
- 由所有项目请求,包括无法访问的所选项目和项目
- 所有项目的共享配额,如集群队列提供
对于每个资源类型(CPU 和内存),从 Total shared quota 值中减去 所有 projects 值的 Requested,以计算没有请求并可用于所有项目的资源配额量。
向下滚动到 Top 资源耗时的分布式工作负载 部分,以查看以下图形:
- 消耗最多 CPU 资源的 5 个分布式工作负载
- 消耗最多内存的 5 个分布式工作负载
您还可以识别每个情况下使用的 CPU 或内存量。
向下滚动以查看 分布式工作负载资源指标表,它列出了所选项目中的所有分布式工作负载,并指示当前资源使用量和每个分布式工作负载的状态。
在每个表条目中,进度条指示此分布式工作负载当前正在使用请求的 CPU 和内存量。要查看实际使用量和请求 CPU 使用量的数字值(以内核数表示)和内存(以 GiB 为单位),请将光标悬停到每个进度栏上。将实际使用量与请求的使用量进行比较,以评估分布式工作负载配置。如有必要,重新配置分布式工作负载,以减少或增加请求的资源。
验证
在 Project metrics 选项卡中,图形和表为所选项目中的分布式工作负载提供资源使用数据。