ランダムクラッシュ、kdumpがトリガされない、システムが再起動されない

ランダムクラッシュ、kdumpがトリガされない、システムが再起動されない

私は数ヶ月間この問題を経験しました。私はパーソナルコンピュータでLinuxを実行しています。任意の時間(1日3回)でシステムが完全に停止し、ハード停電以外の入力に応答しなくなります。マウスカーソルの動きもなく、SysRq マジックキーもなく、Num Lock を押してもキーボードの LED は切り替わりません。

私はハードウェアの問題がこの種の仕事の原因であることが多いことを知っています。しかし:

  • PassMark MemTest86が0個のエラーまたは警告で成功しました。
  • smartctlbadblocksエラーまたは警告がゼロで成功します。
  • 過度の温度やファンの問題はまったく観察されませんでした。
  • 私のグラフィックカードはAMDカードです(つまり、これはNVIDIAカードに関する問題の1つではありません)
  • 私は長年このハードウェアでWindowsを実行してきましたが、同様の問題は発生しませんでした。

問題を診断するためにkdumpを設定しました。を使用してカーネルパニックを引き起こすecho "c" > /proc/sysrq-triggerとカーネルがダンプされますが、クレイジー停止が発生した場合はkdumpを実行または再起動せずに無期限の静止状態を維持します。

私のsysctl設定は次の変数を設定します。

kernel.hardlockup_panic = 1
kernel.hung_task_check_count = 4194304
kernel.hung_task_check_interval_secs = 0
kernel.hung_task_panic = 1
kernel.hung_task_timeout_secs = 10
kernel.hung_task_warnings = 10
kernel.nmi_watchdog = 1
kernel.panic = 60
kernel.panic_on_io_nmi = 1
kernel.panic_on_oops = 1
kernel.panic_on_rcu_stall = 1
kernel.panic_on_unrecovered_nmi = 1
kernel.panic_on_warn = 1
kernel.softlockup_panic = 1
kernel.soft_watchdog = 1
kernel.unknown_nmi_panic = 1
kernel.watchdog = 1
kernel.watchdog_cpumask = 0-3       # my system has 4 cores
kernel.watchdog_thresh = 10

Linuxカーネル4.19と5.0を実行しているUbuntu 18.04とLinuxカーネル4.19と5.3を実行しているArch Linuxでは、これらのハングが発生しました。最新のIntelマイクロコードパッケージを実行しています。 Xorgログまたは.xsession-errorsには、これらの停止に対応するエントリはありません。

アイデアが足りません。次は何を試すべきですか?

ベストアンサー1

この凍結は、Linuxカーネルで解決されていないバグと密接に関連しています(https://bugzilla.kernel.org/show_bug.cgi?id=109051)一部のIntelプロセッサの電源管理とアイドル状態に関連しています。私のシステムは2013年に製造されたi3-3220T CPUを使用していますが、このCPUはこのバグの影響を受けるプロセッサとほぼ同じ世代のようです。

エラースレッドで提案された回避策は、起動intel_idle.max_cstate=1コマンドラインに追加することでした。これを行った後、私のシステムは1ヶ月間停止しませんでした。

おすすめ記事