同じディレクトリで確認された重複ファイルを繰り返し探します。

Question

少し長いがコマンドラインです。ファイルの内容を調べて、暗号化ハッシュ（）を使用してmd5sum比較します。

find . -type f -exec md5sum {} + | sort | sed 's/  */!/1' | awk -F\| 'BEGIN{first=1}{if($1==lastid){if(first){first=0;print lastid, lastfile}print$1, $2} else first=1; lastid=$1;lastfile=$2}'

さっき言ったように内容がちょっと長いです…

findmd5sum現在のディレクトリツリー内のすべてのファイルに対して実行されます。その後、出力はsortmd5ハッシュを介して行われます。ファイル名にスペースがある可能性があるため、最初のフィールドsed区切り文字（スペース2つ）を垂直パイプ（ファイル名に表示される可能性が低い）に変更します。

最後のawkコマンドは、3 つの変数、つまり = 前lastidのエントリの md5 ハッシュ、 = 前のlastfileエントリのファイル名、first= 最初に表示された最後の ID を追跡します。

出力にはハッシュが含まれており、どのファイルが互いに重複しているかを確認できます。

これは、ファイルがハードリンク（同じinode、別名）かどうかを示さず、内容のみを比較します。

更新：ファイルのデフォルト名のみに基づいて変更します。

find . -type f -print | sed 's!.*/\(.*\)\.[^.]*$!\1|&!' | awk -F\| '{i=indices[$1]++;found[$1,i]=$2}END{for(bname in indices){if(indices[bname]>1){for(i=0;i<indices[bname];i++){print found[bname,i]}}}}'

ここでは、findファイル名をリストし、パス名sedのデフォルト名部分を取り、ベース名とフルパス名を含む2フィールドテーブルを作成します。その後、awk見たパス名（「発見」）テーブルが作成され、デフォルト名とエントリ番号でインデックスが作成されます。「インデックス」配列は、見たデフォルト名の数を追跡します。次に、「END」句は、見つかった重複したデフォルト名を印刷します。

Answer 1