5.3. 查看分布式工作负载的 Kueue 警报


在 OpenShift AI 中,您可以查看集群的 Kueue 警报。每个警报都提供一个指向 runbook 的链接。runbook 提供了如何解决触发警报的说明。

先决条件

  • 已使用 cluster-admin 角色登录 OpenShift。
  • 您可以访问配置为运行分布式工作负载的数据科学项目,如 管理分布式工作负载 中所述。
  • 您可以访问包含工作台的数据科学项目,工作台正在运行包含 CodeFlare SDK 的默认工作台镜像,如 Standard Data Science workbench。有关项目和工作台 的详情,请参考使用数据科学项目
  • 您已登陆到 Red Hat OpenShift AI。
  • 您的数据科学项目包含分布式工作负载。

流程

  1. 在 OpenShift 控制台中,在 Administrator 视角中点 Observe Alerting
  2. 单击 Alerting rules 选项卡,以查看 default 和用户定义的项目的警报规则列表。

    • Severity 列指示警报是否为 informational、警告还是 critical。
    • Alert state 列指示规则当前是否触发。
  3. 点警报规则的名称查看更多详情,如触发该警报的条件。下表总结了 Kueue 资源的警报规则。

    Expand
    表 5.1. Kueue 资源的警报规则
    重要性Name报警条件

    Critical

    KueuePodDown

    Kueue pod 未就绪,持续 5 分钟。

    info

    LowClusterQueueResourceUsage

    集群队列中的资源使用量低于其在 1 天以上的 nominal 配额的 20%。资源使用情况指的是集群队列中列出的任何资源,如 CPU、内存等。

    info

    ResourceReservationExceedsQuota

    资源保留是集群队列中可用配额的 10 倍。资源保留指的是集群队列中列出的任何资源,如 CPU、内存等。

    info

    PendingWorkloadPods

    一个 pod 处于 Pending 状态超过 3 天。

  4. 如果警报规则的 Alert 状态 被设置为 Firing,请完成以下步骤:

    1. Observe Alerting,然后点 Alerts 选项卡。
    2. 点触发规则的每个警报查看更多详情。请注意,针对受警报规则影响的每个资源类型触发单独的警报。
    3. 在警报详情页面的 Runbook 部分中,单击链接以打开提供故障排除信息的 GitHub 页面。
    4. 完成 runbook 步骤以确定警报的原因并解决这种情况。

验证

在解决警报原因后,警报规则将停止触发。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat