第 4 章监控分布式工作负载

在 OpenShift AI 中，您可以查看分布式工作负载的项目指标，并查看所选项目中所有分布式工作负载的状态。您可以使用这些指标来监控分布式工作负载使用的资源，评估项目资源是否已正确分配，跟踪分布式工作负载的进度，并在需要时识别正确的操作。

注意

数据科学管道工作负载不由分布式工作负载功能管理，不包含在分布式工作负载指标中。

4.1. 查看分布式工作负载的项目指标
复制链接

在 OpenShift AI 中，您可以查看分布式工作负载的以下项目指标：

CPU - 当前被所选项目中所有分布式工作负载使用的 CPU 内核数。
memory- 以 gibibytes (GiB)为单位的内存量，供所选项目中的所有分布式工作负载使用。

您可以使用这些指标来监控分布式工作负载使用的资源，并评估项目资源是否已正确分配。

先决条件

已安装 Red Hat OpenShift AI。
在安装 OpenShift AI 的 OpenShift 集群上，启用了用户工作负载监控。
您已登陆到 Red Hat OpenShift AI。
如果您使用 OpenShift AI 组，则作为 OpenShift 中的用户组或 admin 组（如 rhoai-users 或 rhoai-admins）的一部分。
您的数据科学项目包含分布式工作负载。

流程

在 OpenShift AI left 导航窗格中，单击 Distributed Workloads Metrics。
从 Project 列表中，选择包含您要监控的分布式工作负载的项目。
点 Project metrics 选项卡。
可选：在 Refresh interval 列表中，选择一个值来指定指标页面上图形的频率，以显示最新的数据。
您可以选择以下值之一：15 秒 ,30 秒, 1 分钟,5 分钟 ,15 分钟,30 分钟 ,1 小时,2 小时, 或 1 天。
在 Requested resources 部分中，查看 CPU 和 Memory 图形，以识别分布式工作负载请求的资源，如下所示：
- 所选项目请求
- 由所有项目请求，包括无法访问的所选项目和项目
- 所有项目的共享配额，如集群队列提供
对于每个资源类型(CPU 和内存)，从 Total shared quota 值中减去 所有 projects 值的 Requested，以计算没有请求并可用于所有项目的资源配额量。
向下滚动到 Top 资源耗时的分布式工作负载 部分，以查看以下图形：
- 消耗最多 CPU 资源的 5 个分布式工作负载
- 消耗最多内存的 5 个分布式工作负载
您还可以识别每个情况下使用的 CPU 或内存量。
向下滚动以查看 分布式工作负载资源指标表，它列出了所选项目中的所有分布式工作负载，并指示当前资源使用量和每个分布式工作负载的状态。
在每个表条目中，进度条指示此分布式工作负载当前正在使用请求的 CPU 和内存量。要查看实际使用量和请求 CPU 使用量的数字值（以内核数表示）和内存（以 GiB 为单位），请将光标悬停到每个进度栏上。将实际使用量与请求的使用量进行比较，以评估分布式工作负载配置。如有必要，重新配置分布式工作负载，以减少或增加请求的资源。

验证

在 Project metrics 选项卡中，图形和表为所选项目中的分布式工作负载提供资源使用数据。

第 4 章监控分布式工作负载

4.1. 查看分布式工作负载的项目指标
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 4 章 监控分布式工作负载

4.1. 查看分布式工作负载的项目指标复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 4 章监控分布式工作负载

4.1. 查看分布式工作负载的项目指标
复制链接