コールドブート後にLinuxがフリーズしました:「NVRM:GPUがバスから落ちました」、Xid 79

コールドブート後にLinuxがフリーズしました:「NVRM:GPUがバスから落ちました」、Xid 79

私の設定は次のとおりです。

  • AMDライゼン9 7950X 16コア
  • ギガバイトX670Eアロスマスター
  • DDR5 Corsair Revenge 5200MHz 16GB
  • PNY NVIDIA GeForce RTX 4080

Windows 11とUbuntu 23.04のデュアルブートがあります。 Windowsがうまく動作します。 Linux、すべて電源を入れ直した後(「コールドブート」など)、コンピュータの電源を入れると数分で動作が停止します。ハンギングは、私がやっているすべてのタスクで画面が停止し、何も起こらないことを意味します。キーボードも同様です。コンピュータのハードウェアリセットを実行する必要があります。時には数分後にそれ自体が再起動することがあります。

再起動した後は、問題なく一日中働くことができました。私はコンピュータの電源を入れ、ログインし、再起動してみました。絶対、とにかく凍結しなければならない

私が確認した他のもの:

  • DDR5モジュールが2つありましたが、そのうちの1つに欠陥があり、削除しました。とにかく失敗の問題は、WindowsとLinuxで異なる場合があります。

  • RAMモジュールを別のスロット(A2からB2など)に移動します。

  • memtest86+を数回実行してください。

  • グラフィックカード用の専用ドライバを削除しました。現在、私はデフォルトのオープンソースxserver-xorg-video-nouveau(GPUアクセラレーションなし)を使用しています。

  • xorgとwaylandを切り替えてみてください

  • いくつかのシステムログ(dmesg、syslog、xorg)を確認しましたが、関連項目が見つかりませんでした(少なくとも私には!)。

  • 最新のパッケージバージョンにアップデート

  • Ubuntuを最初から再インストール

  • BIOSを最新バージョンにアップデートしてください。

  • pcie_aspm=offカーネルオプションが追加されました。

この説明が正しい方向に進むのに役立ちますか?停止の原因を見つけるにはどうすればよいですか?ログファイルで何を見つけるべきですか?

修正する

Artem S. Tashkinovユーザーのおかげで、システムはまだアクティブで停止中にSSH接続を許可することがわかりました。

dmesgGPUが犯人であることを明らかに指摘しています。

ここに画像の説明を入力してください。

ここ私はこれがnvidiaのバグのようであることを読んだ。なぜなら - ユーザーと同じように - 1. 私が何をしても、まったく活動がないときにも発生します(したがって、hot / psの理由はありません)。 2. 再起動後、一日中うまく動作します。 3. Windowsではまったく問題はありません。

私はそれと一緒に暮らすべきですか?それとも修正する方法はありますか?

ベストアンサー1

dmesgのエラーと判断すると、NVIDIAドライバはGPUを物理的に「失った」。 Linuxシステムにはもう存在しません。

これらのエラーは、GPUに何らかの誤動作があることを示している可能性があります。

  1. 再インストールしてみてください。 (取り外した後、あまりにも大きな圧力をかけずにしっかりと取り付け直してください。)
  2. PSUをより強力なモデルに置き換えてください
  3. GPUの電源ケーブルがコネクタにしっかりと接続されていることを確認してください。
  4. ファンが回転していることを確認してください。nvidia-smiテキスト出力を見ると良いでしょう。
  5. WindowsでOCCT(GPU / PSUテスト)を実行してみてください。
  6. 最後に、最新のLinuxドライバ(作成時にバージョン530.41.03)を実行していることを確認してください。

おすすめ記事