duperemoveの正しいブロックサイズの選択

Question

完全な答えではありませんが、ブロックサイズについて：テストデータセットで64Kブロックサイズの重複排除がまだ合理的な時間内に完了したことがわかりました。 4Kは小さなシーンには適していますが、大きなシーンには適していません。 300-500Gのデータセットの場合、16Kのブロックサイズはうまく機能しますが、8Kではパフォーマンスが大幅に低下します。

ブロックのサイズを変更する前に、スキャンするデータの量を減らしてください。これがリソースを節約する最良の方法です。

複数のスナップショットがある場合（すべて重複排除または読み取り専用）、すべてのスナップショットをスキャンしても利点はありません。 1つだけで十分です。最新であるか、最も長く維持したいのが望ましいです。
重複がある場所（たとえば、ほとんど同じパス）のおおよその予想がある場合は、ファイルシステムをより小さな部分に分割して「部分間」重複を最小限に抑え、部分重複によって削除します。多くの反復が予想されないセクションを除外してください。

最後にテストしてみてください。 128K（デフォルト）で始まり、そこで上下に作業します（毎回新しいハッシュファイルを使用）。完了時間がまだ許容可能でメモリが不足していない場合は、より小さいブロックサイズ（半分または1/4）を使用してください。）前の記事の内容を繰り返します。あまりにも多くの時間やメモリが必要な場合は中断し、ブロックサイズを2〜4倍に増やします。取ることができる最も低い値は、基本ファイルシステムのブロックサイズですstat -f /path/to/mountpoint（btrfsのデフォルトブロックサイズは4Kです）。

同じデータセットに対して複数の実行を実行している場合：より大きなチャンクがすでに重複排除されているため、2回目以降の実行はより早く完了し、メモリを消費しませんが、ドライブスペースも節約されます。

Answer 1

完全な答えではありませんが、ブロックサイズについて：テストデータセットで64Kブロックサイズの重複排除がまだ合理的な時間内に完了したことがわかりました。 4Kは小さなシーンには適していますが、大きなシーンには適していません。 300-500Gのデータセットの場合、16Kのブロックサイズはうまく機能しますが、8Kではパフォーマンスが大幅に低下します。

ブロックのサイズを変更する前に、スキャンするデータの量を減らしてください。これがリソースを節約する最良の方法です。

複数のスナップショットがある場合（すべて重複排除または読み取り専用）、すべてのスナップショットをスキャンしても利点はありません。 1つだけで十分です。最新であるか、最も長く維持したいのが望ましいです。
重複がある場所（たとえば、ほとんど同じパス）のおおよその予想がある場合は、ファイルシステムをより小さな部分に分割して「部分間」重複を最小限に抑え、部分重複によって削除します。多くの反復が予想されないセクションを除外してください。

最後にテストしてみてください。 128K（デフォルト）で始まり、そこで上下に作業します（毎回新しいハッシュファイルを使用）。完了時間がまだ許容可能でメモリが不足していない場合は、より小さいブロックサイズ（半分または1/4）を使用してください。）前の記事の内容を繰り返します。あまりにも多くの時間やメモリが必要な場合は中断し、ブロックサイズを2〜4倍に増やします。取ることができる最も低い値は、基本ファイルシステムのブロックサイズですstat -f /path/to/mountpoint（btrfsのデフォルトブロックサイズは4Kです）。

同じデータセットに対して複数の実行を実行している場合：より大きなチャンクがすでに重複排除されているため、2回目以降の実行はより早く完了し、メモリを消費しませんが、ドライブスペースも節約されます。

duperemoveの正しいブロックサイズの選択

ベストアンサー1

おすすめ記事