CUDAを使用するプログラムは、いずれかのエラーが発生した場合に停止して終了できません。

CUDAを使用するプログラムは、いずれかのエラーが発生した場合に停止して終了できません。

何かデバッグをしようとしています。プログラム私はCUDA(特にCUDAグラフ)を使います。プログラムは(時々)エラーが発生した後に比較的正常に終了します。ただし、失敗した後にGPUを使用して別のプログラムを実行しようとすると、起動時にすぐに停止し、ルートkill -KILLでも終了できません。

私のdmesg出力(Linuxシステム)を見ると、次の行が表示されます。

[  155.786155] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCntr from proprietary module nvidia, inheriting taint.
[  155.813728] nvidia-uvm: Loaded the UVM driver, major device number 236.
[  209.863685] NVRM: GPU at PCI:0000:01:00: GPU-82f73d0a-cec0-ed8b-f7da-e87d7ed83f69
[  209.863689] NVRM: Xid (PCI:0000:01:00): 31, pid=2823, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7fcb_83c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ
[  225.483961] NVRM: Xid (PCI:0000:01:00): 31, pid=3114, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7f3e_d5c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ

どうなりますか?

私のシステムに関するいくつかの情報:Devuan Daedalus、カーネル6.1.20-1。 CPUはIntel i5 7600Kです。他の情報が役立つ場合は、お問い合わせください。追加します。

ベストアンサー1

おすすめ記事