GPU RTX 3090を一定期間使用してもERRが発生し続けます。

GPU RTX 3090を一定期間使用してもERRが発生し続けます。

私のコンピュータのGPU関連の問題を解決しようとしてきました。現在、GPUはいくつかのトレーニング作業を非常にうまく実行できます。ただし、入力するとERRに移動しますnvidia-smi。それなら何が起こってもsudo -kill 9 PID

GPUを再起動しようとすると、他のプロセスがGPUを使用しているため、再起動できないというメッセージが表示されます。これを終了することはできないようです。この問題が引き続き発生して再起動すると、問題は解決したようですが、いくつかのトレーニングの後に問題が再発生します。主な問題は、ほとんどの場合SSHを介して自分のコンピュータに接続されているため、再起動すると、誰かが自分のコンピュータの電源を入れるように要求するか、自分で実行する必要があることです。

私のコンピュータのオペレーティングシステムはManjaroです。しかし、Ubuntu 22.04でも同様の問題がありました。

CUDA error: unspecified launch failure

GPUは1年になり、再起動するとトレーニングできたため、これがハードウェアに関連したものだとは思わない。

私のコンピュータの仕様は次のとおりです。

  • CPU: インテル i9-13900K/KF 5.8GHz
  • マザーボード: MSI PRO Z690-A DDR4
  • メモリ:64GB DDR4 3200Mhz 2x32GB
  • 電源: Corsair RM1000 80+ Gold Modular

このマシンには別のGPUであるRTX 2080 TIもあります。

この問題に対する解決策はありますか?想像できるように、これはワークフローにとって非常に懸念されている問題です。

最高、ルカ

ベストアンサー1

GPUは1年になり、再起動するとトレーニングできたため、これがハードウェアに関連したものだとは思わない。

そうかもしれません。

  • PSUの確認/交換(電圧関連)、GPUの再インストール、温度の確認、電源コードの再接続。
  • 最新のリリースドライバ(現在550.54.14)をインストール/使用してみてください。
  • ここでもこの質問をしてください。https://forums.developer.nvidia.com/c/gpu-graphics/linux/148

おすすめ記事