1.4. 故障排除问题
集群管理员可以监控并排除以下 OpenShift Container Platform 组件问题:
安装问题 :OpenShift Container Platform 安装可完成各种阶段。您可以执行以下操作:
- 监控安装阶段。
- 确定在哪个阶段安装问题发生。
- 调查多个安装问题。
- 从失败安装中收集日志。
节点问题 :集群管理员可以通过查看节点的状态、资源使用量和配置来验证和排除节点相关问题。您可以查询以下内容:
- 节点上的 kubelet 状态。
- 集群节点日志.
Crio 问题 :集群管理员可在每个集群节点上验证 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题,请执行以下操作:
- 收集 CRI-O journald 单元日志。
- 清理 CRI-O 存储。
操作系统问题 :OpenShift Container Platform 在 Red Hat Enterprise Linux CoreOS 上运行。如果遇到操作系统问题,可以调查内核崩溃过程。确保以下内容:
- 启用 kdump。
- 测试 kdump 配置。
- 分析内核转储。
网络问题 :要对 Open vSwitch 问题进行故障排除,集群管理员可以执行以下操作:
- 临时配置 Open vSwitch 日志级别。
- 永久配置 Open vSwitch 日志级别。
- 显示 Open vSwitch 日志。
Operator 问题 :集群管理员可以执行以下操作来解决 Operator 问题:
- 验证 Operator 订阅状态。
- 检查 Operator pod 健康状况。
- 收集 Operator 日志。
Pod 问题 :集群管理员可以通过查看 pod 的状态并完成以下内容来排除与 pod 相关的问题:
- 查看 pod 和容器日志。
- 启动具有 root 访问权限的 debug pod。
Source-to-image 问题 :集群管理员可以观察 S2I 阶段,以确定 S2I 进程中的故障发生位置。收集以下内容来解决 Source-to-Image(S2I)问题:
- Source-to-Image 诊断数据。
- 用于调查应用程序故障的应用程序诊断数据。
存储问题 :当无法在新节点中挂载卷时,会发生多附加存储错误,因为失败的节点无法卸载附加的卷。集群管理员可执行以下操作解决多附加存储问题:
- 使用 RWX 卷启用多个附件。
- 使用 RWO 卷时,恢复或删除故障节点。
监控问题 :集群管理员可按照监控故障排除页面中的步骤进行操作。如果您的用户定义的项目的指标不可用,或者 Prometheus 消耗了大量磁盘空间,请检查以下内容:
- 调查用户定义的指标不可用的原因。
- 确定为什么 Prometheus 消耗大量磁盘空间。
日志记录问题:集群管理员可以按照 OpenShift Logging 问题的故障排除页面上的步骤进行操作。检查以下内容以解决日志问题:
- OpenShift CLI(oc)问题 :通过增加日志级别来判断 OpenShift CLI(oc)问题。