コンピュータのシャットダウンの原因をどのように評価しますか?

コンピュータのシャットダウンの原因をどのように評価しますか?

私はDebian 10が最小限にインストールされた古いラップトップ(約10年前)を持っています。私はそれを使ってホームネットワークの他のコンピュータからコピーしたメディアファイルをダウンロードして保存します。私は通常ふたを閉じてSSH経由でアクセスします。私はこの仕事を約1年間やってきました。しかし、最近、より頻繁にクラッシュが発生し始めています。週に一度、時には始まり、すべてを実行してから数分から1時間以内にさえ期間始めます。

memtest86+とSMARTテストを実行しましたが、どちらも問題が報告されていません。コア温度も確認してみましたが、あまり問題ではないようです。私が言ったように、このラップトップは古いラップトップなので、ちょうど長寿命のものがあるかもしれませんが、そのようなケースがあるかどうかを確認したいのですが...

これらのランダムな衝突/終了の原因を評価するには、何を探すべきですか?これがハードウェアの問題なのか、ソフトウェアの問題なのか、どのように解決するのか、コンピュータのどの部分をまだ修復できるのかを知りたいのです。

また、必要な追加情報をここに記載していただきありがとうございます。 :)


~によるとこのコメント、貼り付けた出力dmesg --level=alert,crit,err,warn

[    0.225970] ACPI BIOS Warning (bug): Incorrect checksum in table [ATKG] - 0xB0, should be 0x4A (20180810/tbprint-177)
[    0.362067] core: PEBS disabled due to CPU errata
[    0.363544] mtrr: your CPUs had inconsistent variable MTRR settings
[    0.424461] Expanded resource Reserved due to conflict with PCI Bus 0000:00
[    3.474163] Unstable clock detected, switching default tracing clock to "global"
               If you want to keep using the local clock, then add:
                 "trace_clock=local"
               on the kernel command line
[    3.728460] ACPI Warning: SystemIO range 0x0000000000000828-0x000000000000082F conflicts with OpRegion 0x0000000000000800-0x000000000000084F (\PMIO) (20180810/utaddress-213)
[    3.728473] ACPI Warning: SystemIO range 0x0000000000000530-0x000000000000053F conflicts with OpRegion 0x0000000000000500-0x000000000000053F (\GPIO) (20180810/utaddress-213)
[    3.728481] ACPI Warning: SystemIO range 0x0000000000000500-0x000000000000052F conflicts with OpRegion 0x0000000000000500-0x000000000000053F (\GPIO) (20180810/utaddress-213)
[    3.728488] lpc_ich: Resource conflict(s) found affecting gpio_ich

ベストアンサー1

概念的には、いくつかのドライバの問題が関連している可能性がありますが、これらのエラーはハードウェアに関連している可能性があります。これを診断するために従うべき手順を確立することは困難です。

手がかりを見つけるためにログをシャッフルする必要がありますが、残念ながら説明したようにコンピュータが急速にダウンしている場合、ログはディスクに確実に記録または保持されないため、役に立たないことがよくあります。この問題を本当に解決したい場合は、リモートホストにログインしてシステムの競合なしにシステム上のすべてのメッセージをキャプチャすることを検討してください。

いくつかのコメントが示すように、次のツールを使用してください。

dmesg
sensors
dmesg --level=alert,crit,err,warn
journalctl -xe / journalctl --full and/or examine files in /var/logs

リモートロギングについては(または同様の機能を持つ他のエージェント)を確認してくださいrsyslog

ハードウェアを保護する程度に応じてメモリを交換してください。メモリテスタはメモリエラーを見つけることができますが、私の経験ではメモリエラーをチェックする信頼できる方法ではありません。つまり、メモリテストに合格しましたが、メモリを交換すると欠陥がなくなりました。 (複数のシステムでメモリが断続的に発生するのを見ましたが、一般的なものではありません。)

ハードドライブのエラーは、通常、何が起こっているのかを見ることができないほど、システムが激しく/速くクラッシュしないようにします。とにかくログに失敗したセクターの証拠が明らかにあるでしょう。ハードドライブがこのようにひどく失敗するのを見たことがないからです。欠陥は一度に発生しますが、断続的に一定の間隔で発生します。ハードディスクの問題である可能性はほとんどないと思います。

システムを分解して清掃しまし​​た。ノートパソコンでなければ分解して再組み立てしてみるのも役に立ちそうです。古いハードウェアでは、カード/RAMをスロットに再挿入することをお勧めします。ケーブルを取り外して再接続すると、役に立ちます。すべての冷却ファンと空気の流れがきれいであることを確認してください。電源コネクタをねじって異常な音が出ないように、CPU/GPUヒートシンクがしっかりと固定されていることを確認してください。誤って設計された電源コードが同様の作業を実行し、ランダムにシステムを停止したことがあります(したがって、今は少なくとも1つのブランドを使用していません)。これらのどれもロケット科学ではありませんが、いくつかの問題を解決することができます。

ノートパソコンなら…まあ、頑張って…問題が発生しやすく…落下、ケーブル落下による破損・破損などが発生しやすいです。壊れた回路基板は実際に簡単に損傷を引き起こす可能性があります。 「ランダム」質問の素晴らしいソースです。通気口が清潔で清潔であることを確認してください。ノートブックは表面よりはるかに上になければなりません。さもなければ、過熱して本当に悪いことをするかもしれませんが、起動中に熱が原因で衝突が発生することを本当に望んでいません。

おすすめ記事