第 6 章 对用户分布式工作负载的常见问题进行故障排除


如果您在 Red Hat OpenShift AI 中遇到与分布式工作负载相关的错误,请阅读本节以了解造成此问题的原因,以及如何解决这个问题。

如果此处或发行注记中没有记录这个问题,请联系红帽支持团队。

6.1. 我的 Ray 集群处于暂停状态

问题

集群队列配置中指定的资源配额可能不足,或者资源类别可能尚未创建。

诊断

Ray 集群头 pod 或 worker pod 处于暂停状态。

解决方案

  1. 在 OpenShift 控制台中,从 Project 列表中选择您的项目。
  2. 检查工作负载资源:

    1. 单击 Search,然后从 Resources 列表中选择 Workload
    2. 选择使用 Ray 集群资源创建的工作负载资源,然后点 YAML 选项卡。
    3. 检查 status.conditions.message 字段中的文本,它提供暂停状态的原因,如下例所示:

      status:
       conditions:
         - lastTransitionTime: '2024-05-29T13:05:09Z'
           message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
      Copy to Clipboard Toggle word wrap
  3. 检查 Ray 集群资源:

    1. 单击 Search,然后从 Resources 列表中选择 RayCluster
    2. 选择 Ray 集群资源,然后点 YAML 选项卡。
    3. 检查 status.conditions.message 字段中的文本。
  4. 检查集群队列资源:

    1. 单击 Search,然后从 Resources 列表中选择 ClusterQueue
    2. 检查集群队列配置,以确保您请求的资源在为项目定义的限值内。
    3. 减少请求的资源,或联系您的管理员请求更多资源。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat