4つのディスクを持つRAID 5が1つのディスクエラーで実行されていませんか？

Question

これはRAID5の基本的な問題です。再構築中に不良ブロックがキラーになります。

Oct  2 15:08:51 it kernel: [1686185.573233] md/raid:md0: device xvdc operational as raid disk 0
Oct  2 15:08:51 it kernel: [1686185.580020] md/raid:md0: device xvde operational as raid disk 2
Oct  2 15:08:51 it kernel: [1686185.588307] md/raid:md0: device xvdd operational as raid disk 1
Oct  2 15:08:51 it kernel: [1686185.595745] md/raid:md0: allocated 4312kB
Oct  2 15:08:51 it kernel: [1686185.600729] md/raid:md0: raid level 5 active with 3 out of 4 devices, algorithm 2
Oct  2 15:08:51 it kernel: [1686185.608928] md0: detected capacity change from 0 to 2705221484544
⋮

アレイが組み立てられ、性能が低下した。 xvdc、xvde、xvddで組み立てられました。明らかにホットスペアがあります。

Oct  2 15:08:51 it kernel: [1686185.615772] md: recovery of RAID array md0
Oct  2 15:08:51 it kernel: [1686185.621150] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Oct  2 15:08:51 it kernel: [1686185.627626] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
Oct  2 15:08:51 it kernel: [1686185.634024]  md0: unknown partition table
Oct  2 15:08:51 it kernel: [1686185.645882] md: using 128k window, over a total of 880605952k.

「パーティションテーブル」メッセージは関係ありません。他のメッセージは、mdがおそらくホットスペア（または削除/再追加しようとすると以前に失敗したデバイス）から回復しようとしていることを示しています。

⋮
Oct  2 15:24:19 it kernel: [1687112.817845] end_request: I/O error, dev xvde, sector 881423360
Oct  2 15:24:19 it kernel: [1687112.820517] raid5_end_read_request: 1 callbacks suppressed
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: read error not correctable (sector 881423360 on xvde).
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Disk failure on xvde, disabling device.
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Operation continuing on 2 devices.

ここで、mdはxvde（残りの3つのデバイスの1つ）からセクタを読み取ろうとします。 [不良セクタのため]失敗し、md（アレイのパフォーマンスが低下したため）は回復できません。したがって、アレイからディスクを取り出し、デュアルディスク障害が発生した場合、RAID5は役に立ちません。

なぜスペアとしてマークされているのかわかりません。変です（しかし私が普通に見ているようなので、/proc/mdstatmdadmがそのようにマークしたかもしれません）。また、最新のカーネルは、不良ブロックを削除するのにはるかに躊躇していると思います。しかし、おそらく古いカーネルを実行していますか？

これについて何ができますか？

良いバックアップです。これは、データを維持するためのすべての戦略において常に重要な部分です。

定期的に不良ブロックの配列を清掃してください。オペレーティングシステムには、この目的のためのクローン操作がすでに含まれている可能性があります。またはをエコーすることでrepairこれをcheck行うことができます/sys/block/md0/md/sync_action。「回復」は、見つかったパリティエラーも修正します（たとえば、パリティビットがディスク上のデータと一致しません）。

# echo repair > /sys/block/md0/md/sync_action
#

cat /proc/mdstat進行状況は、またはsysfsディレクトリのさまざまなファイルを使用して見ることができます。（最新のドキュメントのいくつかは以下にあります。Linux Raid Wiki mdstat 記事。

注：古いカーネル（正確なバージョンはわからない）では、チェックによって誤ったブロックが修正されない可能性があります。

最後のオプションはRAID6に切り替えることです。これには別のディスクが必要です（できる4つまたは3つのディスクでRAID 6を実行することはおそらく望ましくないでしょう。 RAID6 は 2 つのディスク障害でも生き残ることができるため、1 つのディスクに障害が発生しても不良ブロックで生き残ることができるため、不良ブロックをマッピングして再構築します。

Answer 1

これはRAID5の基本的な問題です。再構築中に不良ブロックがキラーになります。

Oct  2 15:08:51 it kernel: [1686185.573233] md/raid:md0: device xvdc operational as raid disk 0
Oct  2 15:08:51 it kernel: [1686185.580020] md/raid:md0: device xvde operational as raid disk 2
Oct  2 15:08:51 it kernel: [1686185.588307] md/raid:md0: device xvdd operational as raid disk 1
Oct  2 15:08:51 it kernel: [1686185.595745] md/raid:md0: allocated 4312kB
Oct  2 15:08:51 it kernel: [1686185.600729] md/raid:md0: raid level 5 active with 3 out of 4 devices, algorithm 2
Oct  2 15:08:51 it kernel: [1686185.608928] md0: detected capacity change from 0 to 2705221484544
⋮

アレイが組み立てられ、性能が低下した。 xvdc、xvde、xvddで組み立てられました。明らかにホットスペアがあります。

Oct  2 15:08:51 it kernel: [1686185.615772] md: recovery of RAID array md0
Oct  2 15:08:51 it kernel: [1686185.621150] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Oct  2 15:08:51 it kernel: [1686185.627626] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
Oct  2 15:08:51 it kernel: [1686185.634024]  md0: unknown partition table
Oct  2 15:08:51 it kernel: [1686185.645882] md: using 128k window, over a total of 880605952k.

「パーティションテーブル」メッセージは関係ありません。他のメッセージは、mdがおそらくホットスペア（または削除/再追加しようとすると以前に失敗したデバイス）から回復しようとしていることを示しています。

⋮
Oct  2 15:24:19 it kernel: [1687112.817845] end_request: I/O error, dev xvde, sector 881423360
Oct  2 15:24:19 it kernel: [1687112.820517] raid5_end_read_request: 1 callbacks suppressed
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: read error not correctable (sector 881423360 on xvde).
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Disk failure on xvde, disabling device.
Oct  2 15:24:19 it kernel: [1687112.821837] md/raid:md0: Operation continuing on 2 devices.

ここで、mdはxvde（残りの3つのデバイスの1つ）からセクタを読み取ろうとします。 [不良セクタのため]失敗し、md（アレイのパフォーマンスが低下したため）は回復できません。したがって、アレイからディスクを取り出し、デュアルディスク障害が発生した場合、RAID5は役に立ちません。

なぜスペアとしてマークされているのかわかりません。変です（しかし私が普通に見ているようなので、/proc/mdstatmdadmがそのようにマークしたかもしれません）。また、最新のカーネルは、不良ブロックを削除するのにはるかに躊躇していると思います。しかし、おそらく古いカーネルを実行していますか？

これについて何ができますか？

良いバックアップです。これは、データを維持するためのすべての戦略において常に重要な部分です。

定期的に不良ブロックの配列を清掃してください。オペレーティングシステムには、この目的のためのクローン操作がすでに含まれている可能性があります。またはをエコーすることでrepairこれをcheck行うことができます/sys/block/md0/md/sync_action。「回復」は、見つかったパリティエラーも修正します（たとえば、パリティビットがディスク上のデータと一致しません）。

# echo repair > /sys/block/md0/md/sync_action
#

cat /proc/mdstat進行状況は、またはsysfsディレクトリのさまざまなファイルを使用して見ることができます。（最新のドキュメントのいくつかは以下にあります。Linux Raid Wiki mdstat 記事。

注：古いカーネル（正確なバージョンはわからない）では、チェックによって誤ったブロックが修正されない可能性があります。

最後のオプションはRAID6に切り替えることです。これには別のディスクが必要です（できる4つまたは3つのディスクでRAID 6を実行することはおそらく望ましくないでしょう。 RAID6 は 2 つのディスク障害でも生き残ることができるため、1 つのディスクに障害が発生しても不良ブロックで生き残ることができるため、不良ブロックをマッピングして再構築します。

4つのディスクを持つRAID 5が1つのディスクエラーで実行されていませんか？

ベストアンサー1

これについて何ができますか？

おすすめ記事