4.6. 高级错误报告(AER)
4.6.1. 什么是 AER 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
高级错误报告 (AER)是一个内核功能,为 Peripheral Component Interconnect Express (PCIe)设备提供增强的错误报告功能。AER 内核驱动程序附加支持 PCIe AER 功能的 root 端口,以便:
- 在发生错误时收集全面的错误信息
- 向用户报告错误
- 执行错误恢复操作
例 4.1. AER 输出示例
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Corrected error received: id=ae00
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID)
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=000000c0/00002000
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 6] Bad TLP
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 7] Bad DLLP
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID)
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=00000040/00002000
当 AER 捕获错误时,它会向控制台发送错误消息。如果错误可被修复,则控制台输出会发出警告。
4.6.2. 收集并显示 AER 信息 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
要收集并显示 AER 信息,请使用 rasdaemon 程序。
流程
安装
rasdaemon软件包。~]# yum install rasdaemon启用并启动
rasdaemon服务。~]# systemctl enable --now rasdaemon运行
ras-mc-ctl命令,该命令显示记录错误的摘要(--summary选项),或者显示错误数据库中存储的错误(--errors选项)。~]# ras-mc-ctl --summary ~]# ras-mc-ctl --errors