重複ファイルを見つける最も効率的な方法は何ですか?

重複ファイルを見つける最も効率的な方法は何ですか?

合計数百万のファイル(合計テラバイト)を含む多くのフォルダがあります。すべてのファイルで重複したファイルを見つけたいです。理想的には、出力は簡単なチートのリストです。私のスクリプトを使ってさらに処理します。

fdupesファイルを比較するために「ファイルサイズとMD5署名」を使用するコマンドがあることを知っています。

私にとって明確ではないのは、私が望んでいない一意のサイズのファイルを読んでいるのか(そしてそのハッシュが計算されたのか)ということです。私の場合、データボリュームが膨大で、必要なものよりも多くのディスクI / Oを実行しないように注意が必要でした。また、使用される一時スペースの量を最小限に抑える必要があります。

ベストアンサー1

FSリントバックエンドはfindupあなたに必要なものかもしれません。

FSlintはファイルをスキャンし、さまざまなサイズのファイルをフィルタリングします。次に、正確に同じサイズの残りのファイルをチェックして、ハードリンクではないことを確認します。ユーザーが結果を「マージ」することを選択すると、以前の検索でハードリンクファイルが生成されることがあります。 FSlintは、ファイルがハードリンクではないと判断した場合、md5sumを使用してファイルにさまざまな署名があることを確認します。 md5sum 競合を防ぐために、FSlint は sha1sum 検査を使用して残りのファイルの署名を再検査します。

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

おすすめ記事