awk/bashのファイル比較

Question

MD5を使用する必要があり、入力ファイルにハッシュ競合があると仮定する場合（他のバイナリファイルにはMD5以上がある場合）、ハッシュ時にランダムSALT（短いランダム文字列）を使用して競合を発生させることができます。チェックサムが再び変更されます。

例えば

#!/bin/bash
SALT=$(dd if=/dev/urandom status=none bs=1c count=128)

FILES=("f1" "f2" "f3" "f4" "f5");
for file in "${FILES[@]}"
do
     echo $(echo $SALT | cat - "$file" | md5sum --binary | cut -d' ' -f1) $file
done

これにより、各ファイルのMD5ハッシュが計算されます。文書、ランダムに生成された128バイトを追加します。塩混合され、次の出力が生成されます。

741eefc6c14d80ee38164a0961cfd200 f1
741eefc6c14d80ee38164a0961cfd200 f2
741eefc6c14d80ee38164a0961cfd200 f3
68441eb38393a75dee94ae089d528633 f4
68441eb38393a75dee94ae089d528633 f5

このコマンドを再実行すると、別のチェックサムが得られます（例：塩さまざまですが、まだ重複ファイルと一致します。

bc2fdca1b765989b62e507711749c5b4 f1
bc2fdca1b765989b62e507711749c5b4 f2
bc2fdca1b765989b62e507711749c5b4 f3
a31019a6ace1f51b18920bb33d781c97 f4
a31019a6ace1f51b18920bb33d781c97 f5

これで、この「MD5SUMファイル」リストを処理して重複リストを取得できます。

また、複数の\0\0区切りグループ、\0区切りファイル名などの形式で入力データを処理するように調整する必要があります。（宿題のすべての楽しみを取り除くことなく）。

Answer 1