FSlintを使用してファイルサイズでのみ重複エントリを探していますか？

2024-06-28 • tag-icon

linux-mint duplicate-files

重複ファイルを見つけるためにfslintを使用しようとしていますが、数ギガバイトのファイル全体をハッシュするのに時間がかかります。 ~によるとこのウェブサイト、以下の特徴で比較できます。

機能の概要

compare by file size
compare by hardlinks
compare by md5 (first 4k of a file)
compare by md5 (entire file)
compare by sha1 (entire file)

ただし、GUIやマニュアルページにはこれらのオプションは表示されません。ここで何か抜けましたか？

編集：コマンドラインの代わりにjdupesを使用しています。

jdupes -r -T -T --exclude=size-:300m --nohidden

これを行うには、gitリポジトリを複製してソースからビルドする必要がありました。（残念ながら、パッケージのバージョンは古いです。）

また、それぞれを変更するにはソースコードを編集する必要がありました。

#define PARTIAL_HASH_SIZE 4096

到着

#define PARTIAL_HASH_SIZE 1048576

それから私は実際に私のファイルと正確に一致しました。なぜこのようにエンコードしたのかはわかりませんが、最初の4096バイトを一致させるだけでは十分ではなく、偽の重複も生成されます。（ここではコマンドラインオプションが役に立つかもしれません）

FSlint はこれらすべての比較をサポートしますが、設定は許可されません。常にこれらすべての情報を使用して重複を排除します。

findupこれはそれ自体がシェルスクリプトであり、各比較は別々です。オプションのブロックが表示されるため、不要なテストをスキップするためにコメントを付けることができます。

jdupesに関しては質問ハッシュサイズについては、ここで扱うよりもそこで議論を続ける方が生産的です。

おすすめ記事