第 31 章 使用高级错误报告
当您使用 高级错误报告
(AER
)时,您会收到 Peripheral Component Interconnect Express
(PCIe
)设备的错误事件通知。RHEL 默认启用此内核功能,并收集内核日志中报告的错误。此外,如果您使用 rasdaemon
程序,这些错误会被解析并存储在其数据库中。
31.1. AER 概述
高级错误报告
(AER
)是一个内核功能,可为 Peripheral Component Interconnect Express
(PCIe
)设备提供增强的错误报告。AER
内核驱动程序附加在支持 PCIe
AER
功能的 root 端口,以便:
- 收集全面的错误信息
- 向用户报告错误
- 执行错误恢复操作
当 AER
捕获到错误时,它会将向控制台发送一条 错误 消息。对于可修复的错误,控制台输出是一条 警告。
例 31.1. AER 输出示例
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID) Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=000000c0/00002000 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 6] Bad TLP Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 7] Bad DLLP Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID) Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=00000040/00002000