5.3. 查看分布式工作负载的 Kueue 警报
在 OpenShift AI 中,您可以查看集群的 Kueue 警报。每个警报都提供一个指向 runbook 的链接。runbook 提供了如何解决触发警报的说明。
先决条件
-
已使用
cluster-admin角色登录 OpenShift。 - 您可以访问配置为运行分布式工作负载的数据科学项目,如 管理分布式工作负载 中所述。
- 您可以访问包含工作台的数据科学项目,工作台正在运行包含 CodeFlare SDK 的默认工作台镜像,如 Standard Data Science workbench。有关项目和工作台 的详情,请参考使用数据科学项目。
- 您已登陆到 Red Hat OpenShift AI。
- 您的数据科学项目包含分布式工作负载。
流程
-
在 OpenShift 控制台中,在 Administrator 视角中点 Observe
Alerting。 单击 Alerting rules 选项卡,以查看 default 和用户定义的项目的警报规则列表。
- Severity 列指示警报是否为 informational、警告还是 critical。
- Alert state 列指示规则当前是否触发。
点警报规则的名称查看更多详情,如触发该警报的条件。下表总结了 Kueue 资源的警报规则。
Expand 表 5.1. Kueue 资源的警报规则 重要性 Name 报警条件 Critical
KueuePodDownKueue pod 未就绪,持续 5 分钟。
info
LowClusterQueueResourceUsage集群队列中的资源使用量低于其在 1 天以上的 nominal 配额的 20%。资源使用情况指的是集群队列中列出的任何资源,如 CPU、内存等。
info
ResourceReservationExceedsQuota资源保留是集群队列中可用配额的 10 倍。资源保留指的是集群队列中列出的任何资源,如 CPU、内存等。
info
PendingWorkloadPods一个 pod 处于
Pending状态超过 3 天。如果警报规则的 Alert 状态 被设置为 Firing,请完成以下步骤:
-
点 Observe
Alerting,然后点 Alerts 选项卡。 - 点触发规则的每个警报查看更多详情。请注意,针对受警报规则影响的每个资源类型触发单独的警报。
- 在警报详情页面的 Runbook 部分中,单击链接以打开提供故障排除信息的 GitHub 页面。
- 完成 runbook 步骤以确定警报的原因并解决这种情况。
-
点 Observe
验证
在解决警报原因后,警报规则将停止触发。