両方のファイルを比較し、一致を印刷します。 - 大容量ファイル

Question

ファイルがソートされている場合（公開例は次のとおり）、簡単です。

join -t : File1.txt File2.txt

join結合フィールドが同じ2つのファイルの行をペアにします。デフォルトでは、結合フィールドは最初のフィールドです。ただし、結合フィールドが繰り返されず、フィールドが順番に出力され、ペアリングできない行をスキップすることが、まさに欲しいものです。

ファイルがある場合は注意してください。Windowsラインターミネーター、各行の末尾に追加のキャリッジリターンがあるUnixシステムに表示されます。 CRはほとんど視覚的には見えませんが、join他のテキストツールに関する限り、他の文字と同じです。つまり、すべてのフィールドはFile1.txtCRで終わりますが、フィールドはFile2.txtそうではないので一致しません。少なくとも、CRを削除する必要がありますFile1.txt。

<File1.txt tr -d '\r' | join -t : - File2.txt

ファイルをソートする必要があります。そうでない場合は、ksh / bash / zshでプロセスオーバーライドを使用できます。（必要に応じて追加してくださいtr -d '\r' |。）

join -t : <(sort File1.txt) <(sort File2.txt)

通常のshにUnixバリアントがある場合/dev/fd（ほとんどはい）、これを使用して2つのファイル記述子を介して2つのプログラムの出力をパイプ処理できます。

sort File2.txt | { sort File1.txt | join -t : /dev/fd/0 /dev/fd/3; } 3<&1

元の順序を維持する必要があり、File1.txt結合フィールドで並べ替えない場合は、元の順序を記憶するように行番号を追加し、結合フィールドで並べ替え、結合し、行番号で並べ替え、行番号を削除します。（他のファイルの順序を維持したい場合は、同様のことができます。）

<File1.txt nl -s : |
sort -t : -k 2 |
join -t : -1 2 - <(sort File2.txt) |
sort -t : -k 2,2n |
cut -d : -f 1,3

Answer 1