設定

Question

長い話を短くsh->セクタは、データセグメントの開始後の物理ディスクのセクタ数です。

設定

説明するための簡単なテスト設定は次のとおりです。

/dev/raidme/rd[0-3], 2GB デバイス
/ dev / md127はこの5つでraid5として生成され、xfsで初期化され、任意のデータで埋められます。

始めるには、ゼロ以外のブロックをインポートして上書きします。

# dd if=/dev/raidme/rd0 bs=1k count=1 skip=10240 | hexdump -C | head
...
# dd if=/dev/zero of=/dev/raidme/rd0 bs=1k count=1 seek=10240
...
# dd if=/dev/raidme/rd2 bs=1k count=1 skip=10240 | hexdump  -C | head
1024 bytes (1.0 kB, 1.0 KiB) copied, 8.6021e-05 s, 11.9 MB/s
00000000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
00000400

アレイを停止/再構成してdm / mdキャッシュをフラッシュし、次の点を確認します。

# mdadm --stop /dev/md127
# mdadm --assemble /dev/md127 /dev/raidme/rd*
# echo check > /sys/class/block/md127/md/sync_action
# dmesg | tail
...
[ 1188.057900] md/raid:md127: check found mismatch at sector 16384

ディスクのブロック

さて、まず16384が私たちが書いたものと一致することを確認してみましょう。私の攻撃には512kストライプがあるので、簡単に一致させるためにいくつかのソート項目を作成したことを確認し1024*10240ました0xa00000。

パッチは情報を提供します16384。 1つの注目すべき点は、データがゼロから始まらないことです。

# mdadm -E /dev/raidme/rd0 | grep "Data Offset"
    Data Offset : 4096 sectors

それだけprintf "%x\n" $(((4096+16384)*512))です0xa00000。いいね

mdのブロック

今md側の位置を取得するのは実際には簡単です。セクタ時間で指定された位置にすぎませんnumber_of_stripes。たとえば、私の場合は4つのディスク（3 + 1）があるため、3つのストライプがあります。

ここでは16384*3*512次のことを0x1800000意味します。ディスクがうまくいったので、ディスクを読んで1,000個のゼロを見つけるだけで簡単に確認できます。

# dd if=/dev/md127 bs=1M | hexdump -C | grep -C 3 '00 00 00 00 00 00'
... some false positives...
01800000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
01800400  6b a8 9e e0 ad 88 a8 de  dd 2e 68 00 d8 7a a3 52  |k.........h..z.R|

xfsのブロック

クール。それでは、xfsの位置を見てみましょう。16384*3はい49152（daddrはセクタ番号を使用しています）：

# xfs_db -r /dev/md127
xfs_db> blockget -n
xfs_db> daddr 49152
xfs_db> blockuse -n
block 6144 (0/6144) type data inode 2052 d.1/f.1

ファイルに0があることは間違いありません。

# dd if=/mnt/d.1/f.1 bs=1M | hexdump -C | grep -C 3 '00 00 00 00 00'
...
03680000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
03680400  6b a8 9e e0 ad 88 a8 de  dd 2e 68 00 d8 7a a3 52  |k.........h..z.R|

そのファイルを上書きすると、/dev/raidme/rd0の正しいオフセットのゼロも消えます（他のファイルに追加するだけです）。 /dev/raidme/rd0に書き換えると（配列を再び停止/開始する必要があります）、0が再び表示されます。よさそうだね

しかし、1つの問題は、ストライプサイズが私のもの（512k）ほど大きい場合、処理する単一のブロックがなく、可能なデータの1.5MBだけが破損することです。通常、これは単一のファイルに表示されますが、確認するにはxfs_dbに戻る必要があります。以前のinodeは2052だったことを覚えておいてください。

xfs_db> inode 2052
xfs_db> bmap
data offset 0 startblock 256 (0/256) count 17536 flag 0
data offset 17536 startblock 122880 (0/122880) count 4992 flag 0
data offset 22528 startblock 91136 (0/91136) count 3072 flag 0

ここでブロックサイズは4096バイト（参考資料参照xfs_info）なので、1.5MBは384ブロックです。破損したセグメントは、ファイルの最初のセグメント内のブロック6144〜6528です。

注目すべき他の点は、手動でチャンクを抽出し、チェックサムが一致しない場所を正確にチェックすることです。これで、3つの小さなチャンクを見ることができます。

最後に、パッチに関しては私はmd開発者ではありませんが、古いmdadm raid5ユーザーとして非常に興味があります。確かに努力する価値があると言いたいです。あなたが言及したクリーンアップは役に立つかもしれません。パッチを提出すると、開発者はいくつかのコメントを提示することを確信しています。しかし、MDはこれらのバグについてより詳細に説明する必要があります！

Answer 1

長い話を短くsh->セクタは、データセグメントの開始後の物理ディスクのセクタ数です。

設定

説明するための簡単なテスト設定は次のとおりです。

/dev/raidme/rd[0-3], 2GB デバイス
/ dev / md127はこの5つでraid5として生成され、xfsで初期化され、任意のデータで埋められます。

始めるには、ゼロ以外のブロックをインポートして上書きします。

# dd if=/dev/raidme/rd0 bs=1k count=1 skip=10240 | hexdump -C | head
...
# dd if=/dev/zero of=/dev/raidme/rd0 bs=1k count=1 seek=10240
...
# dd if=/dev/raidme/rd2 bs=1k count=1 skip=10240 | hexdump  -C | head
1024 bytes (1.0 kB, 1.0 KiB) copied, 8.6021e-05 s, 11.9 MB/s
00000000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
00000400

アレイを停止/再構成してdm / mdキャッシュをフラッシュし、次の点を確認します。

# mdadm --stop /dev/md127
# mdadm --assemble /dev/md127 /dev/raidme/rd*
# echo check > /sys/class/block/md127/md/sync_action
# dmesg | tail
...
[ 1188.057900] md/raid:md127: check found mismatch at sector 16384

ディスクのブロック

さて、まず16384が私たちが書いたものと一致することを確認してみましょう。私の攻撃には512kストライプがあるので、簡単に一致させるためにいくつかのソート項目を作成したことを確認し1024*10240ました0xa00000。

パッチは情報を提供します16384。 1つの注目すべき点は、データがゼロから始まらないことです。

# mdadm -E /dev/raidme/rd0 | grep "Data Offset"
    Data Offset : 4096 sectors

それだけprintf "%x\n" $(((4096+16384)*512))です0xa00000。いいね

mdのブロック

今md側の位置を取得するのは実際には簡単です。セクタ時間で指定された位置にすぎませんnumber_of_stripes。たとえば、私の場合は4つのディスク（3 + 1）があるため、3つのストライプがあります。

ここでは16384*3*512次のことを0x1800000意味します。ディスクがうまくいったので、ディスクを読んで1,000個のゼロを見つけるだけで簡単に確認できます。

# dd if=/dev/md127 bs=1M | hexdump -C | grep -C 3 '00 00 00 00 00 00'
... some false positives...
01800000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
01800400  6b a8 9e e0 ad 88 a8 de  dd 2e 68 00 d8 7a a3 52  |k.........h..z.R|

xfsのブロック

クール。それでは、xfsの位置を見てみましょう。16384*3はい49152（daddrはセクタ番号を使用しています）：

# xfs_db -r /dev/md127
xfs_db> blockget -n
xfs_db> daddr 49152
xfs_db> blockuse -n
block 6144 (0/6144) type data inode 2052 d.1/f.1

ファイルに0があることは間違いありません。

# dd if=/mnt/d.1/f.1 bs=1M | hexdump -C | grep -C 3 '00 00 00 00 00'
...
03680000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |................|
*
03680400  6b a8 9e e0 ad 88 a8 de  dd 2e 68 00 d8 7a a3 52  |k.........h..z.R|

そのファイルを上書きすると、/dev/raidme/rd0の正しいオフセットのゼロも消えます（他のファイルに追加するだけです）。 /dev/raidme/rd0に書き換えると（配列を再び停止/開始する必要があります）、0が再び表示されます。よさそうだね

しかし、1つの問題は、ストライプサイズが私のもの（512k）ほど大きい場合、処理する単一のブロックがなく、可能なデータの1.5MBだけが破損することです。通常、これは単一のファイルに表示されますが、確認するにはxfs_dbに戻る必要があります。以前のinodeは2052だったことを覚えておいてください。

xfs_db> inode 2052
xfs_db> bmap
data offset 0 startblock 256 (0/256) count 17536 flag 0
data offset 17536 startblock 122880 (0/122880) count 4992 flag 0
data offset 22528 startblock 91136 (0/91136) count 3072 flag 0

ここでブロックサイズは4096バイト（参考資料参照xfs_info）なので、1.5MBは384ブロックです。破損したセグメントは、ファイルの最初のセグメント内のブロック6144〜6528です。

注目すべき他の点は、手動でチャンクを抽出し、チェックサムが一致しない場所を正確にチェックすることです。これで、3つの小さなチャンクを見ることができます。

最後に、パッチに関しては私はmd開発者ではありませんが、古いmdadm raid5ユーザーとして非常に興味があります。確かに努力する価値があると言いたいです。あなたが言及したクリーンアップは役に立つかもしれません。パッチを提出すると、開発者はいくつかのコメントを提示することを確信しています。しかし、MDはこれらのバグについてより詳細に説明する必要があります！

設定

カーネルパッチにロギングが追加されました。

線形セクタをXFSファイル名として：

私の設定に関する追加情報、ここでは重要ではありません。

ベストアンサー1

設定

ディスクのブロック

mdのブロック

xfsのブロック

おすすめ記事