私はかなりまともなハードウェア(CPUは24/48コアを備えたThreadripper 2970WX)で動作するホームサーバーを持っています。これには、さまざまなソフトウェアを含むいくつかの仮想マシン、一部のオフィスソフトウェアだけでなく、サーバー、ロボット、その他多くのツールが実行されます。時々、コンピュータが突然ダウンすることがありますが、これは本番システムであり、複数の人が依存しているシステムなので、それは良いことではありません。衝突はほとんど起こらず、ほとんどの時間家にいるとすぐに再起動できます。しかし、私のシステム状態を監視し、システムエラーを事前に警告するか、競合レポートを生成して、問題の正確な原因と解決策を知るためのツールがあるかどうかを知りたいです。これを処理するためのツール(GUIなど)がありますか?さまざまなログファイルを手動でクロールすることは、本番システムにとって良いオプションではないと思います。
私はDebian 10 Busterをホストシステムとすべての重要な仮想マシンで実行します。
ベストアンサー1
kdumpというユーティリティがあります。システムでこれを構成でき、システムがクラッシュするたびに、タイムリーなシステム状態がクラッシュダンプフォルダにキャプチャされます。これが私が使ってみたもので推薦できるものです。システムクラッシュの原因がわかっている場合は、スクリプトを作成して問題を解決し、クローンジョブとしてスケジュールできます。