主页
产品
Red Hat OpenShift AI Cloud Service
1
使用分布式工作负载
5.3. 查看分布式工作负载的 Kueue 警报

5.3. 查看分布式工作负载的 Kueue 警报

在 OpenShift AI 中，您可以查看集群的 Kueue 警报。每个警报都提供一个指向 runbook 的链接。runbook 提供了如何解决触发警报的说明。

先决条件

已使用 cluster-admin 角色登录 OpenShift。
您可以访问配置为运行分布式工作负载的数据科学项目，如管理分布式工作负载中所述。
您可以访问包含工作台的数据科学项目，工作台正在运行包含 CodeFlare SDK 的默认工作台镜像，如 Standard Data Science workbench。有关项目和工作台的详情，请参考使用数据科学项目。
您已登陆到 Red Hat OpenShift AI。
您的数据科学项目包含分布式工作负载。

流程

在 OpenShift 控制台中，在 Administrator 视角中点 Observe Alerting。
单击 Alerting rules 选项卡，以查看 default 和用户定义的项目的警报规则列表。
- Severity 列指示警报是否为 informational、警告还是 critical。
- Alert state 列指示规则当前是否触发。

点警报规则的名称查看更多详情，如触发该警报的条件。下表总结了 Kueue 资源的警报规则。

Expand

表 5.1. Kueue 资源的警报规则
重要性	Name	报警条件
Critical	`KueuePodDown`	Kueue pod 未就绪，持续 5 分钟。
info	`LowClusterQueueResourceUsage`	集群队列中的资源使用量低于其在 1 天以上的 nominal 配额的 20%。资源使用情况指的是集群队列中列出的任何资源，如 CPU、内存等。
info	`ResourceReservationExceedsQuota`	资源保留是集群队列中可用配额的 10 倍。资源保留指的是集群队列中列出的任何资源，如 CPU、内存等。
info	`PendingWorkloadPods`	一个 pod 处于 `Pending` 状态超过 3 天。

如果警报规则的 Alert 状态 被设置为 Firing，请完成以下步骤：
1. 点 Observe Alerting，然后点 Alerts 选项卡。
2. 点触发规则的每个警报查看更多详情。请注意，针对受警报规则影响的每个资源类型触发单独的警报。
3. 在警报详情页面的 Runbook 部分中，单击链接以打开提供故障排除信息的 GitHub 页面。
4. 完成 runbook 步骤以确定警报的原因并解决这种情况。

验证

在解决警报原因后，警报规则将停止触发。

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务，以及可以信赖的内容，帮助红帽用户创新并实现他们的目标。了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情，请参阅红帽博客.

關於紅帽

我们提供强化的解决方案，使企业能够更轻松地跨平台和环境（从核心数据中心到网络边缘）工作。

Theme

© 2026 Red Hat

返回顶部