12.2. 为红帽支持收集数据
当您向红帽支持 提交支持问题单 时,使用以下工具为 Red Hat OpenShift Service on AWS 和 OpenShift Virtualization 提供调试信息会很有帮助:
- Prometheus
- Prometheus 是一个时间序列数据库和用于指标的规则评估引擎。Prometheus 将警报发送到 Alertmanager 进行处理。
- Alertmanager
- Alertmanager 服务处理从 Prometheus 接收的警报。Alertmanager 还负责将警报发送到外部通知系统。
有关 Red Hat OpenShift Service on AWS 监控堆栈的详情,请参阅关于 Red Hat OpenShift Service on AWS 监控。
12.2.1. 收集有关环境的数据
收集有关环境的数据可最小化分析和确定根本原因所需的时间。
先决条件
- 将 Prometheus 指标数据的保留时间设置为 最少 7 天。
- 配置 Alertmanager 以捕获相关警报,并将警报通知发送到专用邮箱,以便可以在集群外部查看和保留这些警报。
- 记录受影响的节点和虚拟机的确切数量。
12.2.2. 收集虚拟机的数据
收集有关出现故障的虚拟机 (VM) 的数据可最小化分析和确定根本原因所需的时间。
先决条件
- Linux 虚拟机: 安装最新的 QEMU 客户机代理。
Windows 虚拟机:
- 记录 Windows 补丁更新详情。
- 安装最新的 VirtIO 驱动程序。
- 安装最新的 QEMU 客户机代理。
- 如果启用了远程桌面协议(RDP),使用 桌面查看器 进行连接以确定连接软件是否存在问题。
流程
- 收集在重启前崩溃的虚拟机截图。
- 在修复尝试前,从虚拟机收集内存转储。
- 记录出现故障的虚拟机通常具有的因素。例如,虚拟机具有相同的主机或网络。