テキストファイルから重複行を削除し、削除された行数を取得する方法は？

Question

$ awk 'FNR==NR && !seen[$0]++ { keep[FNR]=$0; next } (FNR in keep) { printf("%s -> %s\n", keep[FNR], $0) }' file1 file2
line A -> line 1
line B -> line 2
line C -> line 4

このプログラムは問題の途中から出力を再現しますawk。

プログラムは最初のファイル（file1）を読み取り、最初のブロックで重複した行を見つけます。このブロックはまた、keep行番号で索引付けされ、配列に保持される行を保持します。

2番目のファイル（コードの2番目のブロック）を読み取るときに行番号が保持したい番号の場合は、2番目のファイルの行と一緒に最初のファイルに保存されている行を出力します。

2つの新しいファイルバリアントを保存します。

awk 'FNR==NR && !seen[$0]++ { keep[FNR]=$0; print >FILENAME ".new"; next } (FNR in keep) { print >FILENAME ".new" }' file1 file2

file1.new書き込みには固有の行のみを使用し、書き込みfile1にfile2.newは同じ行を使用しますが、ではfile2。

このソリューションの唯一の欠点は、2つのxメモリが必要であることです。ここで、x最初のファイルの一意の行数はです。つまり、各固有ラインのコピーを2つ保存しますfile1（配列のインデックスseenとkeep配列の値）。。

Answer 1

$ awk 'FNR==NR && !seen[$0]++ { keep[FNR]=$0; next } (FNR in keep) { printf("%s -> %s\n", keep[FNR], $0) }' file1 file2
line A -> line 1
line B -> line 2
line C -> line 4