OPの@vumeアイデアのシェルスクリプトの実装

Question

チカオカ重複ファイル（画像、ビデオ、または音楽を含む）を見つけ、速度に焦点を当て、コマンドラインまたはグラフィックインターフェイスを介して表示するように設計されたオープンソースツールです。これ部分的に文書内あなたは興味があるかもしれません：

大量のレプリカをすばやくスキャン

デフォルトでは、部分ハッシュは同じサイズ（ファイルあたりハッシュ2KBのみ）にグループ化されたすべてのファイルに対して計算されます。このハッシュ値の計算は通常、特にSSDおよび高速マルチコアプロセッサでは非常に高速です。ただし、HDDまたはスロープロセッサを使用して数十万または数百万のファイルを検索する場合、この手順はしばしば長い時間がかかることがあります。

GUIバージョンでは、ハッシュがキャッシュに格納されるため、将来の重複エントリの検索が高速化されます。

例:

いくつかのテストファイルを作成します。

ランダム画像を作成してコピーしてa.jpgコピーb.jpgを取得します。

$ convert -size 1000x1000 plasma:fractal a.jpg
$ cp -v a.jpg b.jpg
'a.jpg' -> 'b.jpg'
$ convert -size 1000x1000 plasma:fractal c.jpg
$ convert -size 1000x1000 plasma:fractal d.jpg
$ ls --size
total 1456
364 a.jpg  364 b.jpg  364 c.jpg  364 d.jpg

サイズのみを確認してください：

$ linux_czkawka_cli dup --directories /run/shm/test/ --search-method size
Found 2 files in 1 groups with same size(may have different content) which took 361.76 KiB:
Size - 361.76 KiB (370442) - 2 files 
/run/shm/test/b.jpg
/run/shm/test/a.jpg

ハッシュ値でファイルを確認してください。

$ linux_czkawka_cli dup --directories /run/shm/test/ --search-method hash
Found 2 duplicated files in 1 groups with same content which took 361.76 KiB:
Size - 361.76 KiB (370442) - 2 files 
/run/shm/test/b.jpg
/run/shm/test/a.jpg

ファイルを画像として分析してスキャンします。

$ linux_czkawka_cli image --directories /run/shm/test/
Found 1 images which have similar friends
/run/shm/test/a.jpg - 1000x1000 - 361.76 KiB - Very High
/run/shm/test/b.jpg - 1000x1000 - 361.76 KiB - Very High

Answer 1