Proxmox システムが毎日クラッシュします。

Proxmox システムが毎日クラッシュします。

早朝からシステムクラッシュが発生しました。 00:00~08:00の間。

ログを見ると、各コアがクロール速度で遅くなり、最終的にシステム全体が停止するまでクラッシュするように見えます。最初のエラーからシステムクラッシュまで約25分かかります。これらのエラーはメモリの問題を考えていますが、他の欠陥によるものかどうかはわかりません。

システムは、デュアルE5-2630 V2と16X 8GB DDR3を備えたSuper Micro X9DRW-IFです。

オペレーティングシステムはProxmoxの最新バージョンです。

コア:
Linux pve1 4.15.18-10-pve #1 SMP PVE 4.15.18-32 (Sat, 19 Jan 2019)

PERF割り込みがますます長くなり始め、メモリエラーが発生し始めました。これらのエラーの約20個は、システムが停止する前に20分〜1時間発生します。私が理解したのは、PERFは単なるCPU調整です。可能な限り低い速度に調整され、この時点でシステムはクロール状態にクロールされます。

Apr 28 07:36:05 pve1 kernel: [36497.018818] perf: interrupt took too long (6737393 > 4247631), lowering kernel.perf_event_max_sample_rate to 250
Apr 28 07:36:05 pve1 kernel: [36497.018914] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Apr 28 07:36:05 pve1 kernel: [36497.018926] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Apr 28 07:36:05 pve1 kernel: [36497.019012] {1}[Hardware Error]: event severity: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019112] {1}[Hardware Error]:  Error 0, type: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019115] {1}[Hardware Error]:  fru_text: CorrectedErr
Apr 28 07:36:05 pve1 kernel: [36497.019119] {1}[Hardware Error]:   section_type: memory error
Apr 28 07:36:05 pve1 kernel: [36497.019125] {1}[Hardware Error]:   node: 1 device: 0 
Apr 28 07:36:05 pve1 kernel: [36497.019128] {1}[Hardware Error]:   error_type: 2, single-bit ECC
Apr 28 07:36:05 pve1 kernel: [36497.019297] ghes_edac: Internal error: Can't find EDAC structure
Apr 28 07:36:06 pve1 pve-firewall[2311]: firewall update time (13.994 seconds)
Apr 28 07:36:10 pve1 kernel: [36502.054892] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.489 msecs
Apr 28 07:36:17 pve1 pve-firewall[2311]: firewall update time (9.985 seconds)
Apr 28 07:36:20 pve1 pvestatd[2315]: got timeout
Apr 28 07:36:26 pve1 pvestatd[2315]: status update time (33.041 seconds)
Apr 28 07:36:28 pve1 pve-firewall[2311]: firewall update time (11.073 seconds)
Apr 28 07:36:50 pve1 kernel: [36542.038771] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.686 msecs
Apr 28 07:36:56 pve1 pve-firewall[2311]: firewall update time (27.943 seconds)
Apr 28 07:36:56 pve1 pvestatd[2315]: status update time (30.979 seconds)
Apr 28 07:37:03 pve1 pve-firewall[2311]: firewall update time (6.031 seconds)

https://pastebin.com/9Z0A49xR

この時点では、実際に何が起こったのか知りたいです。

ベストアンサー1

私のコロケーションホストはサーバーをインポートし、すべてのDIMMを再インストールしました。

これは3日間起こりませんでした。信頼性の高い接続が不足して接続が遅くなり、誤ったアドレスをスキップしようとすると、システムがクラッシュするまで、ますます多くのデータが破損しているようです。接続が緩んでいると、メモリ電圧が低下して変動が発生する可能性があります。電圧は範囲内に保持されますが、これにより電圧が不安定になります。

おすすめ記事