第 6 章 对用户分布式工作负载的常见问题进行故障排除
如果您在 Red Hat OpenShift AI 中遇到与分布式工作负载相关的错误,请阅读本节以了解造成此问题的原因,以及如何解决这个问题。
如果此处或发行注记中没有记录这个问题,请联系红帽支持团队。
6.1. 我的 Ray 集群处于暂停状态 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
问题
集群队列配置中指定的资源配额可能不足,或者资源类别可能尚未创建。
诊断
Ray 集群头 pod 或 worker pod 处于暂停状态。
解决方案
- 在 OpenShift 控制台中,从 Project 列表中选择您的项目。
检查工作负载资源:
- 单击 Search,然后从 Resources 列表中选择 Workload。
- 选择使用 Ray 集群资源创建的工作负载资源,然后点 YAML 选项卡。
检查
status.conditions.message
字段中的文本,它提供暂停状态的原因,如下例所示:status: conditions: - lastTransitionTime: '2024-05-29T13:05:09Z' message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
status: conditions: - lastTransitionTime: '2024-05-29T13:05:09Z' message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
检查 Ray 集群资源:
- 单击 Search,然后从 Resources 列表中选择 RayCluster。
- 选择 Ray 集群资源,然后点 YAML 选项卡。
-
检查
status.conditions.message
字段中的文本。
检查集群队列资源:
- 单击 Search,然后从 Resources 列表中选择 ClusterQueue。
- 检查集群队列配置,以确保您请求的资源在为项目定义的限值内。
- 减少请求的资源,或联系您的管理员请求更多资源。