複数のファイルから重複した行をすばやく削除

Question

あなたの質問を理解したかどうかはわかりませんが、コードは次のように最適化される可能性があります。

awk '!x{a[$0];next}; !($0 in a)' foo/file x=1 bar/file > tmp

（空行や「0」と解釈される行に問題があるようです。）

ファイルがソートされたら、次のことができます。

comm -13 foo/file bar/file > tmp

そうでない場合（ksh93.zshまたはbash構文）：

comm -13  <(sort foo/file) <(sort bar/file) > tmp

（awkソリューションより必ずしも高速ではありません）

また、特にGNU awkの場合、ロケールをC / POSIXに設定すると、より良いパフォーマンスが得られます。

LC_ALL=C awk ...

Answer 1