ZFS - 「Add.Sense:回復不能な読み取りエラー - 自動再割り当て失敗」がシステムログに表示されますが、SMARTデータは正常に見えます。

ZFS - 「Add.Sense:回復不能な読み取りエラー - 自動再割り当て失敗」がシステムログに表示されますが、SMARTデータは正常に見えます。

エラーが発生するかどうかを確認するために、毎週クリーニングするzpool(3x 3TB Western Digital Red 3個)があり、システムログにエラーが発生し続けます。

Jul 23 14:00:41 server kernel: [1199443.374677] ata2.00: exception Emask 0x0 SAct 0xe000000 SErr 0x0 action 0x0
Jul 23 14:00:41 server kernel: [1199443.374738] ata2.00: irq_stat 0x40000008
Jul 23 14:00:41 server kernel: [1199443.374773] ata2.00: failed command: READ FPDMA QUEUED
Jul 23 14:00:41 server kernel: [1199443.374820] ata2.00: cmd 60/02:c8:26:fc:43/00:00:f9:00:00/40 tag 25 ncq 1024 in
Jul 23 14:00:41 server kernel: [1199443.374820] res 41/40:00:26:fc:43/00:00:f9:00:00/40 Emask 0x409 (media error) <F>
Jul 23 14:00:41 server kernel: [1199443.374946] ata2.00: status: { DRDY ERR }
Jul 23 14:00:41 server kernel: [1199443.374979] ata2.00: error: { UNC }
Jul 23 14:00:41 server kernel: [1199443.376100] ata2.00: configured for UDMA/133
Jul 23 14:00:41 server kernel: [1199443.376112] sd 1:0:0:0: [sda] tag#25 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 23 14:00:41 server kernel: [1199443.376115] sd 1:0:0:0: [sda] tag#25 Sense Key : Medium Error [current] [descriptor]
Jul 23 14:00:41 server kernel: [1199443.376118] sd 1:0:0:0: [sda] tag#25 Add. Sense: Unrecovered read error - auto reallocate failed
Jul 23 14:00:41 server kernel: [1199443.376121] sd 1:0:0:0: [sda] tag#25 CDB: Read(16) 88 00 00 00 00 00 f9 43 fc 26 00 00 00 02 00 00
Jul 23 14:00:41 server kernel: [1199443.376123] blk_update_request: I/O error, dev sda, sector 4181982246
Jul 23 14:00:41 server kernel: [1199443.376194] ata2: EH complete

しばらく前にSATAケーブルエラーが原因で読み書きエラーが発生し(後でzpoolのクリーンアップとスナップショットから復元して修正されます)、最初はこのエラーが発生したと思いました。ちなみに今回は、ブッシュウォーキングをする際にランダムに繰り返されます。

これまでZFSはエラーがないと言っていますが、ディスクを「修復」しているとも言います。

 pool: sdb
 state: ONLINE
  scan: scrub in progress since Sun Jul 23 00:00:01 2017
    5.41T scanned out of 7.02T at 98.9M/s, 4h44m to go
    16.5K repaired, 77.06% done
config:

    NAME                                        STATE     READ WRITE CKSUM
    sdb                                         ONLINE       0     0     0
      ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N1366685  ONLINE       0     0     0  (repairing)
      ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N0K3PFPS  ONLINE       0     0     0
      ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N0M94AKN  ONLINE       0     0     0
    cache
      sde                                       ONLINE       0     0     0

errors: No known data errors

SMARTデータは単純なテストを実行した後、すべてが大丈夫であることを示しているようです。唯一目立つのは、UDMA_CRC_Error_CountSATAケーブルを固定した後もまったく伸びなかったことです。

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   195   175   021    Pre-fail  Always       -       5233
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       625
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   069   069   000    Old_age   Always       -       22931
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       625
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       581
193 Load_Cycle_Count        0x0032   106   106   000    Old_age   Always       -       283773
194 Temperature_Celsius     0x0022   118   109   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   133   000    Old_age   Always       -       1801
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     22931         -

これに加えて、ZFS I / Oエラーに関する通知も受け取りました。これこれはドライブアイドル/回転時間に関連するバグです。

  eid: 71
 class: io
  host: server
  time: 2017-07-23 15:57:49-0500
 vtype: disk
 vpath: /dev/disk/by-id/ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N1366685-part1
 vguid: 0x979A2C1464C41735
 cksum: 0
  read: 0
 write: 0
  pool: sdb

私の主な質問は、このドライブをどのように管理する必要がありますか?安全のために交換しようとしていますが、どのくらいの頻度で交換する必要があるのか​​疑問に思います。

以下は、SMARTデータとZFS /カーネルの違いを説明できると思います。

  1. ZFS ioエラーのバグのため、カーネルに不良セクタがあると思いますが、SMARTによると何もありません。
  2. ZFSはドライブを修理し続けます(以前の不良ケーブルに関連)。これは、SMARTデータがあるにもかかわらずドライブエラーを示す可能性があります。
  3. このエラーは偽陽性であり、これに関して修正されていません。抜け穴Ubuntuでは

編集:今、良いドライブのファームウェアバージョンが82.00A82で、エラーのあるバージョンが80.00A80であることに気づきました。 Western Digital Forumによると、この特定のモデルのファームウェアを更新する方法はありません。私もそれが役に立たないと確信しています。

編集2:ずっと前に更新するのを忘れていましたが、これは最終的にハードウェアの問題です。複数のSATAケーブルを交換した後、ついに問題が電源ケーブルに欠陥があることに気づきました。不安定な電源装置はドライブを停止しましたが、より良い電源装置を購入してプールを節約できました。

ベストアンサー1

最終的にドライブを交換するかどうかを判断できるのはあなたのデータです。結局は錆びただけです。

しかし、cat/RAID0プールを作成したように見えるので、ドライブにエラーが発生するとすべてが失われることを指摘したいと思います。ミラーがないと、ZFSは失敗したファイルを回復できず、報告のみできます。

クリーンアップの実行中にsyslogに送信されたエラーメッセージが表示された場合は、ZFSチェックサムの確認中にドライブに負担がかかる可能性があります。すべてのデータにアクセスできるわけではないため、スクラビングはドライブに再割り当てが必要と思われるブロックに到達できます。または回線にノイズがあります。私はBrendan Greggがディスクについて音を鳴らすことについて話しているわけではありません。 ;o)ケーブルの問題を発見しましたか?コントローラやポートの問題も関連していますか?

Western Digital Forumについて知っています。私は、消費者ドライブがソフトウェアやハードウェアRAIDとうまく機能しないという「苦情」をたくさん見ました。データが重要な場合は、ディスクの数が増えず、再構築/再同期中に他の操作が失敗する可能性があるため、ミラーリング(3方向ミラーを含む)の使用を検討できます。

「スマートデータ」の場合、結論はそれがどれだけ「スマート」または有用であるかである。ベンダーテストに合格したが役に立たないドライブを見たことがあります。

おすすめ記事