KVMベースのVPS SSDホストは、過去数ヶ月間にクラッシュを経験しました。同僚からログスクリーンショットを2つだけ受け取り、journalctl
ログはまったくありませんでした。 2つの異なるホストがありますが、VMWareベースのVPSプロバイダによって提供されます。常に正常に実行され、KVMで実行されている3つのホストには常に問題があり、月に最大5回クラッシュします。
私たちのチームは、以前にこの手順を使用したのと同じCentOSイメージを使用して、他のシステムのスナップショットを再保存するだけで破損したシステムを回復できます。
最初のスクリーンショットに示すように、メモリデータの破損が検出されました。ログがなければ、これはかなり難しいかもしれません。
ログなしではわかりにくいことがわかりましたが、いくつかの情報を収集しました。
- 不規則な間隔で事故が発生しました。
- ログには、開始後3.5秒のタイムスタンプが表示されます。
- この起動フェーズには initramfs を含めることができます。
私はここで最善の推測をしています。誰かが何かをインストールしてシステムを再起動し、何かが破損またはupdate-initramfs
破損している可能性があります。以前のログは失われます。 VPS プロバイダは、ハードウェアが正常に動作し、QEMU または KVM インスタンスが競合していないことを確認します。したがって、xfs_repair
別の競合が発生した場合、ファイルシステムの破損の原因が何であるかはわかりません。ホストは同じCentOS ISOを共有します。
これはServerFaultの問題のようですが、私の質問はLinuxに関連しています。一般的に私の特定の問題とは関係ありませんが、initramfsに害を及ぼす可能性は何ですか?
スクリーンショットは次のとおりです。
ベストアンサー1
これは私にとって効果的です。
緊急モードに入った後に実行
xfs_repair -L /dev/dm-0 && 再起動
ログインして端末で実行
sudo xfs_fsr /dev/mapper/centos-root sudo xfs_fsr /dev/dm-0 再起動
問題が何であるかは100%確信できませんが、バージョンに関係なくすべてのCentOS VMで発生します。私はこの問題を調査するために一週間を過ごしました。