4.6. 高级错误报告(AER)


4.6.1. 什么是 AER

高级错误报告 (AER)是一个内核功能,为 Peripheral Component Interconnect Express (PCIe)设备提供增强的错误报告功能。AER 内核驱动程序附加支持 PCIe AER 功能的 root 端口,以便:

  • 在发生错误时收集全面的错误信息
  • 向用户报告错误
  • 执行错误恢复操作

例 4.1. AER 输出示例

Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Corrected error received: id=ae00
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID)
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0:   device [8086:2030] error status/mask=000000c0/00002000
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0:    [ 6] Bad TLP
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0:    [ 7] Bad DLLP
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID)
Feb  5 15:41:33 hostname kernel: pcieport 10003:00:00.0:   device [8086:2030] error status/mask=00000040/00002000

AER 捕获错误时,它会向控制台发送错误消息。如果错误可被修复,则控制台输出会发出警告。

4.6.2. 收集并显示 AER 信息

要收集并显示 AER 信息,请使用 rasdaemon 程序。

流程

  1. 安装 rasdaemon 软件包。

    ~]# yum install rasdaemon
  2. 启用并启动 rasdaemon 服务。

    ~]# systemctl enable --now rasdaemon
  3. 运行 ras-mc-ctl 命令,该命令显示记录错误的摘要( --summary 选项),或者显示错误数据库中存储的错误( --errors 选项)。

    ~]# ras-mc-ctl --summary
    ~]# ras-mc-ctl --errors

其它资源

  • 有关 rasdaemon 服务的更多信息,请参阅 rasdaemon(8) 手册页。
  • 有关 ras-mc-ctl 服务的更多信息,请参阅 ras-mc-ctl(8) man page。
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.