1.3. 故障排除问题
集群管理员可以监控并排除以下 OpenShift Dedicated 组件问题:
节点问题 :集群管理员可以通过查看节点的状态、资源使用量和配置来验证和排除节点相关问题。您可以查询以下内容:
- 节点上的 kubelet 状态。
- 集群节点日志.
Operator 问题 :集群管理员可以执行以下操作来解决 Operator 问题:
- 验证 Operator 订阅状态。
- 检查 Operator pod 健康状况。
- 收集 Operator 日志。
Pod 问题 :集群管理员可以通过查看 pod 的状态并完成以下内容来排除与 pod 相关的问题:
- 查看 pod 和容器日志。
- 启动具有 root 访问权限的 debug pod。
存储问题 :当无法在新节点中挂载卷时,会发生多附加存储错误,因为失败的节点无法卸载附加的卷。集群管理员可执行以下操作解决多附加存储问题:
- 使用 RWX 卷启用多个附件。
- 使用 RWO 卷时,恢复或删除故障节点。
监控问题 :集群管理员可按照监控故障排除页面中的步骤进行操作。如果您的用户定义的项目的指标不可用,或者 Prometheus 消耗了大量磁盘空间,请检查以下内容:
- 调查用户定义的指标不可用的原因。
- 确定为什么 Prometheus 消耗大量磁盘空间。
-
OpenShift CLI (
oc
)问题 :通过增加日志级别来调查 OpenShift CLI (oc
) 问题。