smartctlとハードドライブのエラーを理解する

smartctlとハードドライブのエラーを理解する

raidz2 ZFSプールがあり、zfsが失敗としてマークされる前に、私のディスクの2つでI / Oエラーが発生し始めました。dmesgログを表示するにはクリックしてください。

ディスクを取り出し、いくつかのテストを実行しました。インテリジェント制御理論

ディスク1"完全なログを見るにはクリックしてください。=SMARTステータス:データチャネルがまもなく失敗する予定です。データエラー率が高すぎます。 [asc=5d, ascq=32]
ディスク2"完全なログを見るにはクリックしてください。=SMARTステータス:差し迫ったハードウェア障害一般的なハードドライブ障害[asc = 5d、ascq = 10]

「DISK 1」で新しいプールを作成し、fioテストを開始しましたが、ディスクにI / Oエラーが表示されません。以前のようなエラーは発生しませんでした。ディスクが正常に動作しています。また、4つのディスクで構成されたプールを作成し、ディスク使用率は正常でした。
このテストを4日間試しましたが、エラーは発生しませんでした。これで、ディスクは他のディスクのように動作します。

fio --randrepeat=0 --ioengine=libaio --name=test --filename=/disktest/fiofile  \  
--bs=1024k --iodepth=64 --size=5T --readwrite=readwrite --rwmixread=60 --numjobs=20

いくつかの質問があります。
1 - ディスクにエラーが発生しないのはなぜですか?
2-ディスクが正常に動作している場合、最初のプールでI / Oエラーが発生するのはなぜですか?
3-ハードドライブにエラーがあるかどうかを確認する最良の方法は何ですか?
4- ハードドライブのエラーカウンタをどのようにリセットしますか?
5-ディスクはジャンクですか?

接続されたディスクのソースは次のとおりです。コントローラ - > LSI3008HBA - > 2本のSASケーブル - > "SC946ED-R2KJBOD" 2xExpander ->マルチパスSASディスク。

ベストアンサー1

  1. 一部の欠陥が現れたり消えたりすることがあります。ディスクが損傷する前に警告が表示されるという保証はありませんが、SMARTでエラーが発生し始めた場合は、危険を避けることなくドライブを交換することをお勧めします。
  2. 時々、ディスクは成功するまで問題領域を再試行し続けるため、エラーが発生して消えることがあります(この時点では、通常、可能であればその領域を再利用しないようにします)。
  3. 使用している各LBAに対して長いSMARTセルフテストおよび/または読み取り/書き込みを実行できます(ZFSには起動できるクリーンアップ(つまり再同期)プロセスがあります)。しかし注意してください。これにより、ディスクが永久に故障する可能性があります。
  4. あなたはできません。
  5. 言うのは難しいですが、別の言い方をすれば、不要な機器を交換しないことで、節約されたコストが突然故障する危険性を負うのに十分な価値がありますか?

おすすめ記事