原因は何ですか? pcieport 0000:00:03.0: PCIe バスエラー: AER/無効な TLP

原因は何ですか? pcieport 0000:00:03.0: PCIe バスエラー: AER/無効な TLP

次のエラーメッセージが表示されます。

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

これらの問題が(今まで)修正されても、パフォーマンスの低下が発生する可能性があります。明らかに、この問題は解決する必要があります。しかし、インターネットではこれに関する多くの情報を見つけることができませんでした。 (たぶん私は間違った場所を探しているかもしれません)。

このエラーについてもっと知っている人はいますか?

マザーボードですか、Samsung 950 Proですか、それともGPU(またはそれらの組み合わせ)ですか?

ハードウェアはM2のAsus X99 Deluxe II Samsung 950 Pro NVMeです。 MBのスロット(共有PCIeポート3)PCIeポート3には他のものは接続されていません。 PCIeスロット1のGeForce GTX 1070 Core i7 6850K CPU

私が見つけたいくつかのリンクには、同じハードウェア(X99 Deluxe II mbとSamsung950 Pro)があります。私はアーチLinuxを使用しています。

これまでJournalctlや検索したい他の場所では、文字列 "8086:6f08"が見つかりませんでした。

nvme ssd関連の奇妙なエラーメッセージ(無効なTLP):linuxquestionshttps://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe:あなたのカードがTLP再送と静かに戦っていますか?http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

無効なTLP PCIeバスエラーが発生するGTX 1080 - GeForce Forumshttps://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

ドライバー - dmesgログのPCIeエラー - Ubuntu Q&Ahttps://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99ハードロック - PCIEエラー - NVIDIA開発者フォーラム https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

ベストアンサー1

何が起こっているのかを完全に説明することはできませんが、少なくともいくつかの詳細を提供できます。

たとえば、説明されているようにここ、CPUは次のようにPCIeバスコントローラと通信します。トランザクション層パケット(TLP)。ハードウェアはエラーを検出し、Linuxカーネルはそれをメッセージとして報告します。

カーネルオプションは、pci=nommconfカーネル2.6以降、Linuxで利用可能なメモリマッピングPCI構成スペースを無効にします。概して、すべてのPCIデバイスにはデバイスを説明する領域があります(ご覧のようにlspci -vv)。その領域にアクセスする元の方法はI / Oポートを介することであり、PCIeを使用すると、このスペースをメモリにマッピングしてより簡単にアクセスできます。

これはこの特別な場合ですPCIeコントローラがこの方法を使用して特定のデバイスの構成スペースにアクセスすると、エラーが発生します。これは、デバイスのハードウェアのバグ、マザーボードのPCIeルートコントローラのハードウェアのバグ、2つの間の特定の対話のハードウェアのバグなどです。

を使用すると、pci=nommconfすべてのデバイスの構成スペースに元の方法でアクセスされます。アクセス方法を変更すると、この問題を解決できます。したがって、必要に応じて問題を解決して抑制できます。

おすすめ記事