スワップスペースがいっぱいになると、CPUが過熱し、PCがシャットダウンします。

スワップスペースがいっぱいになると、CPUが過熱し、PCがシャットダウンします。

これは必ずしもLinuxの問題ではありませんが、とにかくここに尋ねます。私が使用するワークステーションは、主にディープラーニングとマシンラーニングモデルをトレーニングするために使用されます。 CPUとGPUの両方でトレーニングコードを実行します。

CPU: AMD Ryzen 9 5950X 16コアプロセッサ

グラフィックカード: NVIDIA GeForce RTX 3090

オペレーティングシステム:Ubuntu 22.04 LTS

私が使用しているライブラリ(PyTorch、XGBoost、LightGBMなど)は、データをロードするために多くのスワップメモリ​​を使用します。大容量データセットを処理すると、スワップメモリ​​がゆっくりと蓄積され、制限(2 GB)を超えます。これが発生すると、すべてのコアがクレイジーになり、CPUが過熱します。ワークステーションは数秒後に自動的に終了します。

私はデータサイエンティストですが、ハードウェアにはうまくいきません。私のワークステーションが終了し続ける理由を見つけるのに数週間かかりました。これ以上作業を完了できないため、これが発生しないようにする方法を見つける必要があります。どんな提案がありますか?

もう少し詳しく申し上げると、3〜4ヶ月前にはこのようなことは起こりませんでした。最近始めました。

編集する:nvidia-smiとセンサー出力を追加して、2つのモデル(UNetとYOLOv6)を同時にトレーニングします。

NVIDIA-SMI

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.73.05    Driver Version: 510.73.05    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:0A:00.0 Off |                  N/A |
|100%   79C    P2   338W / 350W |  14171MiB / 24576MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1361      G   /usr/lib/xorg/Xorg                 56MiB |
|    0   N/A  N/A      1568      G   /usr/bin/gnome-shell               10MiB |
|    0   N/A  N/A     27955      C   python                           2743MiB |
|    0   N/A  N/A     31692      C   python                          11355MiB |
+-----------------------------------------------------------------------------+

検出器

nvme-pci-0300
Adapter: PCI adapter
Composite:    +74.8°C  (low  = -273.1°C, high = +84.8°C)
                       (crit = +84.8°C)
Sensor 1:     +74.8°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +74.8°C  (low  = -273.1°C, high = +65261.8°C)

iwlwifi_1-virtual-0
Adapter: Virtual device
temp1:        +57.0°C  

k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +87.8°C  
Tccd1:        +89.2°C  
Tccd2:        +79.5°C

ベストアンサー1

まず、PSUが十分に強力であることを確認してください。すぐにシャットダウンした場合、PSUに問題があることを示すことができます。交換することもできます。 RTX 3090の最高出力は500Wです。これは、PSUとCPUの定格が少なくとも850W以上でなければならないことを意味します。


あなたの一時的な従業員について話す。

CPUが定格に近づいて動作しています。最高、これは90℃です。これは、ケースファンを取り付けてケース冷却を改善する方が良いことを意味します。たとえば、120mm(140mmが良く、より静かでより強力です)、おそらくCPUに優れたクーラーを取り付けてサーマルグリースを交換します。 i最初の選択はArctic MX-4です(MX-5は理論的には優れたパフォーマンスを提供できますが、適用するのははるかに難しいです)。

GPUは確実にCPU温度を上げるので、適切なケース冷却装置を取り付けるだけで十分です。

EFI BIOSをアップデートすることを忘れないでください。

ソフトウェア専用のソリューションを使用することもできます。 BIOSに入って

  • CPU PPT(最大ワット数)を下げてください。
  • または、最高温度を85℃に設定してください。

どちらもマルチスレッドのパフォーマンス低下を引き起こしますが、その影響は大きくありません。ここでより多くの助けを得ることができます:https://www.reddit.com/r/Amd/

おすすめ記事