1.4. 故障排除问题

集群管理员可以监控并排除以下 OpenShift Container Platform 组件问题：

安装问题：OpenShift Container Platform 安装可完成各种阶段。您可以执行以下操作：
- 监控安装阶段。
- 确定在哪个阶段安装问题发生。
- 调查多个安装问题。
- 从失败安装中收集日志。
节点问题：集群管理员可以通过查看节点的状态、资源使用量和配置来验证和排除节点相关问题。您可以查询以下内容：
- 节点上的 kubelet 状态。
- 集群节点日志.
Crio 问题：集群管理员可在每个集群节点上验证 CRI-O 容器运行时引擎状态。如果遇到容器运行时问题，请执行以下操作：
- 收集 CRI-O journald 单元日志。
- 清理 CRI-O 存储。
操作系统问题：OpenShift Container Platform 在 Red Hat Enterprise Linux CoreOS 上运行。如果遇到操作系统问题，可以调查内核崩溃过程。确保以下内容：
- 启用 kdump。
- 测试 kdump 配置。
- 分析内核转储。
网络问题：要对 Open vSwitch 问题进行故障排除，集群管理员可以执行以下操作：
- 临时配置 Open vSwitch 日志级别。
- 永久配置 Open vSwitch 日志级别。
- 显示 Open vSwitch 日志。
Operator 问题：集群管理员可以执行以下操作来解决 Operator 问题：
- 验证 Operator 订阅状态。
- 检查 Operator pod 健康状况。
- 收集 Operator 日志。
Pod 问题：集群管理员可以通过查看 pod 的状态并完成以下内容来排除与 pod 相关的问题：
- 查看 pod 和容器日志。
- 启动具有 root 访问权限的 debug pod。
Source-to-image 问题：集群管理员可以观察 S2I 阶段，以确定 S2I 进程中的故障发生位置。收集以下内容来解决 Source-to-Image(S2I)问题：
- Source-to-Image 诊断数据。
- 用于调查应用程序故障的应用程序诊断数据。
存储问题：当无法在新节点中挂载卷时，会发生多附加存储错误，因为失败的节点无法卸载附加的卷。集群管理员可执行以下操作解决多附加存储问题：
- 使用 RWX 卷启用多个附件。
- 使用 RWO 卷时,恢复或删除故障节点。
监控问题：集群管理员可按照监控故障排除页面中的步骤进行操作。如果您的用户定义的项目的指标不可用，或者 Prometheus 消耗了大量磁盘空间，请检查以下内容：
- 调查用户定义的指标不可用的原因。
- 确定为什么 Prometheus 消耗大量磁盘空间。
日志记录问题：集群管理员可按照"支持"和"对日志进行故障排除"部分中的步骤来解决日志记录问题：
OpenShift CLI (oc)问题：通过增加日志级别来调查 OpenShift CLI (oc) 问题。

学习

尝试、购买和销售

社区

關於紅帽

我们提供强化的解决方案，使企业能够更轻松地跨平台和环境（从核心数据中心到网络边缘）工作。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情，请参阅红帽博客.

关于红帽文档

通过我们的产品和服务，以及可以信赖的内容，帮助红帽用户创新并实现他们的目标。了解我们当前的更新.

Theme

© 2026 Red Hat

返回顶部