cudaで実行されているプロセスは何も記録せずに終了します。

cudaで実行されているプロセスは何も記録せずに終了します。

リモートサーバーのCUDAで実行されているプロセスがあり、ある時点でstderrに何も記録せずにプロセスが終了します。 stdoutに頻繁に書き込むので、ログを見ていつ中断したかを確認できます。

確認してみるとdmesg停電/var/log/syslog中は何も起こりませんでした。

さらに、他のプロセスもCUDA、他のGPUで実行されており、問題なく実行され続けます。

これが私に起こったのは今回が初めてではなく、私はまだ何が間違っているのかを識別する方法を知りません。他に確認できるものはありますか?

私はUbuntu 18.04とCUDA 10.0を実行しており、プロセスはPythonとpytorchで書かれています。

ベストアンサー1

おすすめ記事