失敗したXFSファイルシステムを検出する方法は？

Question

まあ。何をすべきか私失敗したXFSファイルシステムが検出されましたか？

私は長年XFSを使用してきました。しかし、私は思う私まったく検出しないでください。インストールが成功すれば正しく機能すると思います。これがほとんどの人がやっていることです。ファイルシステムのチェックが自動化されて実行されている場合、それはすべてです。

誤解しないでください。私は実際に多くの監視を行いますが、その中にファイルシステムに固有の監視はありません。 SMARTセルフテストを実行します（時間がかかりすぎるselect,contため、毎日ディスクセグメントを実行します）。longRAIDチェック（ステージング段階でも）を実行し、パリティの不一致（mismatch_cnt= 0）をチェックします。これらのいずれかが失敗した場合は、すぐに電子メール通知を受け取り、セクターの再割り当てが開始されたら実際にHDDを交換します（または少なくとも重要なデータを信頼していません）。

そのため、ストレージが正常に動作しているかどうかを監視します。これには、ドライブ自体（SMART）内のエラーとある程度高いレベルのエラーが含まれます（RAIDチェックは、コントローラ、ケーブル、RAIDロジックなどをある程度テストします）。

正常に機能する限り、ファイルシステムも理想的に機能する必要があります。 ZFS / btrfs（将来はXFS対応）などのチェックサムファイルシステムを除いて、ファイルシステム自体で内部的に実行される完全性チェックに加えて、マウント時にファイルシステムレベルでスキャンを実行することは実際には不可能です。コンセプト。

出力には、RAIDを実行しており、そのRAIDに障害が発生したディスクがあることが表示されます。md0冗長性のないRAID（RAID0またはパフォーマンスが低下したRAID1/5/6/10）でない限り、エラーは発生しないでください。。

まず、ファイルシステム階層の下の問題を解決する必要があります。ディスクエラーに対してXFSを非難することはできませんが、ディスクエラーを確認する方法ではありません。

ファイルシステム上で完全な読み取りテストを実行したい場合は、xfsdumpバックアップディスクに対して実行できるようです。とにかくファイルシステムで完全な読み取りテストを実行したい場合は、次のようにします。まあ、ある意味では意味があるんです。

その本質は、xfsdumpXFSファイルシステムを完全にナビゲートし、すべてのファイルを保存することです。したがって、これは空き領域を除いて可能な限り完全な読み取りテストに近づける必要があります。

もちろん、すでに別のバックアップシステムを実行している場合は、実際にはファイルシステムに依存しない方法で同じ状況です。（該当するバックアップシステムで単純な権限不足以上の読み取りエラーが発生した場合は、メールレポートを送信するのが最善です。、また）もちろん、増分バックアップであれば、定期的な完全バックアップなしで実際にファイルを何度も読み取ることはありません。

しかし、通常、ストレージが動作していることを知っている限り、ファイルシステムは「正しく動作する」と信じています。すべてのプログラムが例外なしで発生するすべてのI / Oエラーを引き上げることをお勧めしますが、実際にこれを行う普遍的な解決策はありません。各プログラムには独自のエラー処理機能があります。

Answer 1