ZFS - 圧縮ファイルがディスク使用量を見かけのサイズのほぼ2倍にするのはなぜですか？

Question

4Kセクタ（合計12個）を持つ12個のディスクで構成されたvdevで8Kレコードをストライピングすることはashift悪い考えであり、多くのオーバーヘッドをもたらします。

OpenZFSから：

https://openzfs.github.io/openzfs-docs/基本概念/RAIDZ.html

これらの入力により、レコードサイズがセクタサイズ以下である場合、RAIDZのパリティサイズは同じ冗長性を持つミラーと実質的に同じです。たとえば、3つのディスクを持つraidz1（ashift = 12とrecords = 4K）の場合は、ディスクに次のものを割り当てます。

4Kデータブロック1個

4Kパディングブロック1個

利用可能なスペース比は50％で、デュアルミラーと同じです。

3つのディスクがあり、ashift = 12でレコードサイズ= 128Kのraidz1の別の例：

総ストライプ幅は3です。

1つのパリティブロックがあるため、ストライプは最大2つの4Kサイズのデータ部分を持つことができます。

それぞれ8Kデータと4Kパリティを含む128K / 2 = 64のストライプがあります。

したがって、この例の空き容量比は66％です。

RAIDZにディスクが多いほど、ストライプが広くなり、スペース効率が向上します。

このテキストの後には、画面をキャプチャしてここに含めると読み取れない図がありますが、セクタサイズの1倍または2倍のレコードサイズの場合、オーバーヘッドがRAIDZ2で67％になることを示しています。

チャートによると、この場合、ソリューションはrecordsize12ディスクRAIDZ2 vdevからパリティ+パディングコストが18%の256Kに増やすことです。（recordsize比較すると、128Kの場合、24％のオーバーヘッドが発生します）。

しかし、それほど単純ではありません。「クラシック」ファイルシステムでは、次のように初期選択である8Kがrecordsize正しいことがあります。recordsize最高固定ブロックサイズではなくブロックサイズ。しかし、recordsizeより大きなファイルと比較的小さいファイルについてはまだ不利益があります。

増加はrecordsize変更後に生成されたデータにのみ影響しますが、この場合、プールはスペースの6％しか消費されず、現在の圧縮率は1.4倍です。長期的な容量の問題を引き起こすことなく、既存のデータをそのまま維持できます。ただし、回復オーバーヘッドが必要な場合：

https://openzfs.github.io/openzfs-docs/パフォーマンスとチューニング/ワークロード Tuning.html

アプリケーションが他のレコードサイズでより良いパフォーマンスを発揮する必要があるため、レコードサイズを変更する場合は、そのファイルを再生成する必要があります。各ファイルにcpの後にmvがあれば十分です。または、完全な受信が完了したら、send / recvは正しいレコードサイズでファイルを再生成する必要があります。

相関プーリングの実際の実験では：

# zfs set recordsize=256K pool02/redactedStorage

# dd if=/dev/zero of=testfile256.40M.zeroes bs=1M count=40
# du -h testfile256.40M.zeroes
512B    testfile256.40M.zeroes

# dd if=/dev/random of=testfile256.40M.rnd bs=1M count=40
# du -h testfile256.40M.rnd
 40M    testfile256.40M.rnd

# dd if=/dev/random of=testfile256.8K.rnd bs=8192 count=1
# du -h testfile256.8K.rnd
 37K    testfile256.8K.rnd

ご覧のとおり、40Mファイルは大量の論理スペースを使用しています。しかし、8Kファイルは37Kのスペースを消費します！

したがって、recordsizeデータセットの内容に応じて調整する必要があります。

もちろん、128Kのデフォルト値recordsizeが最適なようですので、触れないでください。

# zfs set recordsize=128K pool02/redactedStorage
# cp testfile256.40M.rnd testfile128.40M.rnd
# du -h testfile128.40M.rnd
512B    testfile128.40M.rnd
# mv testfile128.40M.rnd testfile128.40M.rnd2
# du -h testfile128.40M.rnd2
 40M    testfile128.40M.rnd2

# cp testfile256.8K.rnd testfile128.8K.rnd
# mv testfile128.8K.rnd testfile128.8K.rnd2
# du -h testfile128.8K.rnd2
 19K    testfile128.8K.rnd2

これは、8Kテストファイルが19Kのディスク容量を使用しますが、必要なメタデータオーバーヘッドがあることを示しています。見ている非圧縮性既存のファイルサイズは<= 8Kで、すべてのファイルも元のファイルからrecordsize=8K19Kのディスク使用量を表示します。さらに試しましたが、recordsize=64Kサンプルファイルのサイズには何の影響もありませんでした。

また、newの下にファイルインスタンスを作成するには、cp後者が実際に必要であることに注意してください。mvrecordsize

この記事はまた、何が起こっているかについての良い説明を提供し、これは子孫のために残すでしょう。

https://klarasystems.com/articles/choosing-the-right-zfs-pool-layout/

パディング、ディスクセクタサイズ、レコードサイズの設定：RAID-Zでは、パリティ情報はRAID-5のように特定のストライプではなく各ブロックに関連付けられているため、小さすぎて再利用できないセグメントが解放されるのを防ぐために、各データ割り当てはp + 1（パリティ+ 1）複数である必要があります。割り当てられたデータがp + 1の倍数ではない場合は「パディング」が使用されるため、RAID-ZはRAID-5よりも少しパリティとパディングスペースが必要です。これは複雑な質問ですが、簡単に言ってスペースの非効率性を防ぐために、ZFSレコードサイズをディスクセクタサイズよりはるかに大きく保つ必要があります。 512バイトセクタディスクの場合は、Recordsize = 4Kまたは8Kを使用できます。 4Kセクターディスクの場合、Recordsizeはこの値の数倍でなければなりません（デフォルトは128Kで十分です）。そうしないと、あまりにも多くのスペースを失う可能性があります。

Answer 1