무엇이 원인입니까? pcieport 0000 : 00 : 03.0 : PCIe 버스 오류 : AER / 잘못된 TLP


20

아래와 같은 오류 메시지가 나타납니다.

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

지금까지 수정 되었더라도 성능이 저하 될 수 있습니다. 분명히이 문제를 해결해야합니다. 그러나 나는 인터넷에서 그것에 대해 많이 찾을 수 없습니다. (아마도 잘못된 곳을 찾고 있습니다.) 아래에 게시 할 몇 가지 링크 만 발견했습니다.

누구든지 이러한 오류에 대해 더 알고 있습니까?

마더 보드, Samsung 950 Pro 또는 GPU (또는 이들의 조합)입니까?

하드웨어는 다음과 같습니다. M2의 Asus X99 Deluxe II Samsung 950 Pro NVMe. mb의 슬롯 (PCIe 포트 3을 공유 함). PCIe 포트 3에는 다른 것이 연결되어 있지 않습니다. PCIe 슬롯 1 코어 i7 6850K CPU의 GeForce GTX 1070

내가 찾은 몇 가지 링크에는 동일한 하드웨어 (X99 Deluxe II mb & Samsung950 Pro)가 언급되어 있습니다. 아치 리눅스를 사용하고 있습니다.

journalctl 또는 지금까지 검색해 본 다른 곳에서 문자열 "8086 : 6f08"을 찾을 수 없습니다.

nvme ssd (Bad TLP)의 이상한 오류 메시지 : linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe : TLP 재전송으로 카드가 조용히 어려움을 겪고 있습니까? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080에서 잘못된 TLP PCIe 버스 오류 발생-GeForce 포럼 https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

드라이버-dmesg 로그의 PCIe 오류-Ubuntu에 문의 /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 하드 락-PCIE 오류-NVIDIA 개발자 포럼 https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


나는 gtx 710을 pcie x16 슬롯에서 x1 슬롯으로 옮겼다 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

답변:


23

어떻게되는지 완전히 설명 할 수는 없지만 최소한 몇 가지 세부 정보를 제공 할 수 있습니다.

예를 들어 여기에 설명 된대로 CPU는 트랜잭션 계층 패킷 (TLP)에 의해 PCIe 버스 컨트롤러와 통신합니다 . 하드웨어는 결함이있는 경우이를 감지하고 Linux 커널은이를 메시지로보고합니다.

커널 옵션 pci=nommconf은 커널 2.6 이후 Linux에서 사용할 수있는 메모리 매핑 된 PCI 구성 공간을 비활성화합니다. 대략적으로 모든 PCI 장치에는이 장치를 설명하는 영역이 있으며 (이것으로 lspci -vv표시됨) 원래이 영역에 액세스하는 방법에는 I / O 포트를 사용하는 것이 포함되며 PCIe를 사용하면이 공간을 메모리에 매핑하여보다 쉽게 ​​액세스 할 수 있습니다.

특히이 경우 즉, 뭔가 의 PCIe 컨트롤러가 특정 장치의 configuraton 공간에 액세스하기 위해이 방법을 사용하는 경우에 잘못. 장치, 마더 보드의 PCIe 루트 컨트롤러,이 두 가지 또는 그 밖의 특정 상호 작용에서 하드웨어 버그 일 수 있습니다.

를 사용 pci=nommconf하면 모든 장치의 구성 공간에 원래 방식으로 액세스 할 수 있으며 액세스 방법을 변경하면이 문제를 해결할 수 있습니다. 따라서 원하는 경우 해결하고 억제합니다.


메인 보드 문제인지 알 수 있습니까? 또는 내 CPU 문제. 변경해야합니까?
user10024395

@ user2675516 : CPU와 관련이 없습니다. PCIe 루트 컨트롤러 (주로 Southbridge에 있음) 및 / 또는 장치의 PCIe 컨트롤러 또는 상호 작용의 문제입니다. 예. 하드웨어가 다른 마더 보드를 교체하면 일반적으로 제거됩니다.
dirkt

아수스 e-ws에서 아수스 디럭스로 변경했지만 여전히 문제가 지속됩니다. 그것이 내가 CPU라고 생각하는 이유입니다. 아니면 둘 다 X99 칩셋이기 때문입니까?
user10024395

1
@ user2675516 : 칩셋이 동일하면 esp. PCIe 컨트롤러를 사용하면 마더 보드를 변경해도 도움이되지 않습니다. 그래서 나는 " 다른 하드웨어를 가진 마더 보드"를 썼습니다 .
dirkt

나를위한 공통 요소는 X99 칩셋이있는 마더 보드 인 것 같습니다
Monica Cellio 용 MountainX

3

커널 명령 행 옵션을 추가하면 pci=nommconf문제가 해결되었습니다. 따라서 문제가 마더 보드 관련이라고 가정합니다. X99 마더 보드가 장착 된 모든 컴퓨터 에서 발생 합니다. Z170 시스템 또는 내가 소유 한 다른 하드웨어에서는 발생하지 않습니다.


1
안녕, 나는 또한이 문제에 직면하고있다. pci-nommconf가 무엇을하는지 알 수 있습니까? 문제를 억제하거나 문제를 해결하고 있습니까?
user10024395 2016 년

수 없습니다 확인 - 아치 4.13.12을 z170i에 오류가 실행
sitilge

@sitilge-귀하의 의견에 감사드립니다. 어떤 브랜드 / 모델 z170i? 내 마더 보드는 Asus입니다. 하나는 X99 Deluxe II
MonicaX 용 MountainX

ASUS Z170i Pro 게임입니다.
sitilge

3

이 단계를 시도하십시오 :

  1. cp /etc/default/grub ~/Desktop
  2. 그룹을 편집하십시오. pci=noaer끝에 추가하십시오 GRUB_CMDLINE_LINUX_DEFAULT. 라인은 다음과 같습니다.

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. 지금 재부팅하세요

난 당신의 솔루션을 적용하지만, 대신에 pci=noaer내가 사용 pci=nommconf으로 @dirkt 제안
user3405291

고마워, pci = noaer는 hp 노트북에 설치된 슬랙웨어 14.2x64 문제를 해결했습니다 (데스크톱 설치시이 문제가 전혀 나타나지 않음)
John Forkosh 2016 년

7
조금 더 자세히 설명해 주시겠습니까? 이 옵션은 무엇을하며 어떻게 문제를 해결할 것으로 예상합니까?
Calimo

sudoedit안전한 편집을 위해 왜 사용하지 않겠습니까? 이 사본들에 대해 -1이 단계는 완전히 말도 안됩니다
LinuxSecurityFreak

4
pci=noaer고급 오류보고 만 비활성화합니다. 그래서 당신은 여전히 ​​그 오류가 있습니다, 당신은 단지 그들을 볼 수 없습니다 ...
dirkt

2

같은 오류가 발생합니다 (장치 8086 : 6f08과 관련된 잘못된 TLP). X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti가 있습니다. 이러한 문제는 Samsung Pro와 같은 X99 칩셋 및 M.2 장치와 관련이있는 것 같습니다.

X99 Deluxe II 마더 보드는 PCIE16_3 슬롯과 M.2 / U.2 사이의 대역폭을 공유합니다. @Nic의 의견에 따라 BIOS에서 Onboard Devices Configuration | 자동에서 U.2_2까지의 U.2_2 대역폭. 이것은 나를 위해 문제를 해결했습니다.


그것이 단지 칩셋이라고 어떻게 판단 했습니까? 다른 모든 칩셋을 사용해 보셨습니까? 다양한 하드웨어에서 발생합니다.
doug65536

2

내 x99-E에서 Bios의 PCIE16_3 슬롯 구성을 M.2 장치 지원의 기본값 인 자동 대신 x8 모드로 정적으로 설정하도록 변경했습니다. PCIe 1x ~ 16x 확장 보드를 통해 연결된 1070GTX 카드 모두에서 TLP 오류없이 정상적으로 작동합니다.

먼저 포트 16_3을 사용하지 않고 테스트를 위해 해당 슬롯으로 옮겼지만 여전히 바이오스가 변경되기 전에 문제가있었습니다. 또한 광부 구성에서 모든 카드의 대기 설정을 30으로 변경했습니다.

변경하기 전에 커널 로그가 결함으로 스팸되었습니다. 또한 변경 전후 시스템의 전원을 껐다 켜려고했습니다. 꽤 영속적 인 것 같습니다.


2

"AER"에 대한 마더 보드 설명서를 검색하십시오. 특정 비 호환성을 수정하거나 AER을 모두 비활성화하여 문제의 원인을 제거 할 수 있습니다. 모든 오류 스팸이 수정 된 오류와 관련된 경우에만 사용하십시오 . 그렇지 않으면 실제 문제를 해결할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.