1.4. 故障排除问题
集群管理员可以监控并排除以下 OpenShift Container Platform 组件问题:
- 安装问题 :OpenShift Container Platform 安装可完成各种阶段。您可以执行以下操作: - 监控安装阶段。
- 确定在哪个阶段安装问题发生。
- 调查多个安装问题。
- 从失败安装中收集日志。
 
- 节点问题 :集群管理员可以通过查看节点的状态、资源使用量和配置来验证和排除节点相关问题。您可以查询以下内容: - 节点上的 kubelet 状态。
- 集群节点日志.
 
- Crio 问题 :集群管理员可在每个集群节点上验证 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题,请执行以下操作: - 收集 CRI-O journald 单元日志。
- 清理 CRI-O 存储。
 
- 操作系统问题 :OpenShift Container Platform 在 Red Hat Enterprise Linux CoreOS 上运行。如果遇到操作系统问题,可以调查内核崩溃过程。确保以下内容: - 启用 kdump。
- 测试 kdump 配置。
- 分析内核转储。
 
- 网络问题 :要对 Open vSwitch 问题进行故障排除,集群管理员可以执行以下操作: - 临时配置 Open vSwitch 日志级别。
- 永久配置 Open vSwitch 日志级别。
- 显示 Open vSwitch 日志。
 
- Operator 问题 :集群管理员可以执行以下操作来解决 Operator 问题: - 验证 Operator 订阅状态。
- 检查 Operator pod 健康状况。
- 收集 Operator 日志。
 
- Pod 问题 :集群管理员可以通过查看 pod 的状态并完成以下内容来排除与 pod 相关的问题: - 查看 pod 和容器日志。
- 启动具有 root 访问权限的 debug pod。
 
- Source-to-image 问题 :集群管理员可以观察 S2I 阶段,以确定 S2I 进程中的故障发生位置。收集以下内容来解决 Source-to-Image(S2I)问题: - Source-to-Image 诊断数据。
- 用于调查应用程序故障的应用程序诊断数据。
 
- 存储问题 :当无法在新节点中挂载卷时,会发生多附加存储错误,因为失败的节点无法卸载附加的卷。集群管理员可执行以下操作解决多附加存储问题: - 使用 RWX 卷启用多个附件。
- 使用 RWO 卷时,恢复或删除故障节点。
 
- 监控问题 :集群管理员可按照监控故障排除页面中的步骤进行操作。如果您的用户定义的项目的指标不可用,或者 Prometheus 消耗了大量磁盘空间,请检查以下内容: - 调查用户定义的指标不可用的原因。
- 确定为什么 Prometheus 消耗大量磁盘空间。
 
- 日志记录问题 :集群管理员可按照"支持"和"对日志进行故障排除"部分中的步骤来解决日志记录问题: 
- 
						OpenShift CLI (oc)问题 :通过增加日志级别来调查 OpenShift CLI (oc) 问题。