4.6. 고급 오류 보고(AER)
4.6.1. AER란?
AER
( Advanced Error Reporting
)는PCIe
( Peripheral Component Interconnect Express
) 장치에 대한 향상된 오류 보고 기능을 제공하는 커널 기능입니다. AER
커널 드라이버는 다음 작업을 위해 PCIe
AER
기능을 지원하는 루트 포트를 연결합니다.
- 오류가 발생한 경우 포괄적인 오류 정보 수집
- 사용자에게 오류 보고
- 오류 복구 작업 수행
예 4.1. AER 출력 예
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID) Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=000000c0/00002000 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 6] Bad TLP Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 7] Bad DLLP Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID) Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=00000040/00002000
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Corrected error received: id=ae00
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID)
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=000000c0/00002000
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 6] Bad TLP
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 7] Bad DLLP
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID)
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=00000040/00002000
AER
가 오류를 캡처하면 오류 메시지를 콘솔에 보냅니다. 오류를 복구할 수 있는 경우 콘솔 출력은 경고입니다.
4.6.2. AER 메시지 수집 및 표시
AER 메시지를 수집하고 표시하려면 rasdaemon
프로그램을 사용합니다.
절차
rasdaemon
패키지를 설치합니다.yum install rasdaemon
~]# yum install rasdaemon
Copy to Clipboard Copied! rasdaemon
서비스를 활성화하고 시작합니다.systemctl enable --now rasdaemon
~]# systemctl enable --now rasdaemon
Copy to Clipboard Copied! 로그 오류(-summary 옵션)에 대한 요약을 표시하거나 오류 데이터베이스(
-
errors 옵션)에 저장된 오류를 표시하는ras
명령을 실행합니다.-
mc-ctlras-mc-ctl --summary ras-mc-ctl --errors
~]# ras-mc-ctl --summary ~]# ras-mc-ctl --errors
Copy to Clipboard Copied!