fdupesのようなツールは、jpgまたはh264圧縮ファイルの操作におけるとんでもない過剰です。ファイルサイズが完全に等しい 2 つのファイルは、2 つのファイルが同じであるという良い表示です。
他にも16バイトの等間隔チャンク16個を抽出して比較した結果、やはり同じであれば同じだと仮定できる証拠は十分です。そんなことありますか?
(しかし、1 MBまたはCD / DVDの1つなどの特定のターゲットサイズに圧縮するオプションがあるため、ファイルサイズ自体はやや信頼できない指標である可能性があります。多くのファイルで同じターゲットサイズを使用する場合は、同じですが、他のファイルのサイズがまったく同じであることはかなり合理的です。
ベストアンサー1
チカオカ重複ファイル(画像、ビデオ、または音楽を含む)を見つけ、速度に焦点を当て、コマンドラインまたはグラフィックインターフェイスを介して表示するように設計されたオープンソースツールです。これ部分的に文書内あなたは興味があるかもしれません:
大量のレプリカをすばやくスキャン
デフォルトでは、部分ハッシュは同じサイズ(ファイルあたりハッシュ2KBのみ)にグループ化されたすべてのファイルに対して計算されます。このハッシュ値の計算は通常、特にSSDおよび高速マルチコアプロセッサでは非常に高速です。ただし、HDDまたはスロープロセッサを使用して数十万または数百万のファイルを検索する場合、この手順はしばしば長い時間がかかることがあります。
GUIバージョンでは、ハッシュがキャッシュに格納されるため、将来の重複エントリの検索が高速化されます。
例:
いくつかのテストファイルを作成します。
ランダム画像を作成してコピーしてa.jpg
コピーb.jpg
を取得します。
$ convert -size 1000x1000 plasma:fractal a.jpg
$ cp -v a.jpg b.jpg
'a.jpg' -> 'b.jpg'
$ convert -size 1000x1000 plasma:fractal c.jpg
$ convert -size 1000x1000 plasma:fractal d.jpg
$ ls --size
total 1456
364 a.jpg 364 b.jpg 364 c.jpg 364 d.jpg
サイズのみを確認してください:
$ linux_czkawka_cli dup --directories /run/shm/test/ --search-method size
Found 2 files in 1 groups with same size(may have different content) which took 361.76 KiB:
Size - 361.76 KiB (370442) - 2 files
/run/shm/test/b.jpg
/run/shm/test/a.jpg
ハッシュ値でファイルを確認してください。
$ linux_czkawka_cli dup --directories /run/shm/test/ --search-method hash
Found 2 duplicated files in 1 groups with same content which took 361.76 KiB:
Size - 361.76 KiB (370442) - 2 files
/run/shm/test/b.jpg
/run/shm/test/a.jpg
ファイルを画像として分析してスキャンします。
$ linux_czkawka_cli image --directories /run/shm/test/
Found 1 images which have similar friends
/run/shm/test/a.jpg - 1000x1000 - 361.76 KiB - Very High
/run/shm/test/b.jpg - 1000x1000 - 361.76 KiB - Very High