重複ファイルを見つけるためにfslintを使用しようとしていますが、数ギガバイトのファイル全体をハッシュするのに時間がかかります。 ~によるとこのウェブサイト、以下の特徴で比較できます。
機能の概要
compare by file size
compare by hardlinks
compare by md5 (first 4k of a file)
compare by md5 (entire file)
compare by sha1 (entire file)
ただし、GUIやマニュアルページにはこれらのオプションは表示されません。ここで何か抜けましたか?
編集:コマンドラインの代わりにjdupesを使用しています。
jdupes -r -T -T --exclude=size-:300m --nohidden
これを行うには、gitリポジトリを複製してソースからビルドする必要がありました。 (残念ながら、パッケージのバージョンは古いです。)
また、それぞれを変更するにはソースコードを編集する必要がありました。
#define PARTIAL_HASH_SIZE 4096
到着
#define PARTIAL_HASH_SIZE 1048576
それから私は実際に私のファイルと正確に一致しました。なぜこのようにエンコードしたのかはわかりませんが、最初の4096バイトを一致させるだけでは十分ではなく、偽の重複も生成されます。 (ここではコマンドラインオプションが役に立つかもしれません)