csvファイルをルックアップ列1と比較し、列2の値を確認します。

Question

次の入力ファイルが与えられた場合：

$ cat in1 in2
Column 1, Column 2
abc     , 123
def     , 234
adf     , 567
Column 1, Column 2
abc     , 123
def     , 234
adf     , 578

まず、それらをソートしてから単一のファイルにリンクできます。

$ sort in1 > in1.sorted; sort in2 > in2.sorted; paste in{1,2}.sorted
Column 1, Column 2  Column 1, Column 2
abc     , 123   abc     , 123
adf     , 567   adf     , 578
def     , 234   def     , 234

awkここではコンマが役に立ちますが、最初にコンマを削除する必要がありますsed。

$ paste in{1,2}.sorted | sed s/,//g
Column 1 Column 2   Column 1 Column 2
abc      123    abc      123
adf      567    adf      578
def      234    def      234

その後、次のようにすばやくダンプできますawk。

$ paste in{1,2}.sorted | sed s/,//g | awk '$2 == $4 {print $1,"Validated"}; $2 != $4 { print $1,"Failed"}'
Column Failed
abc Validated
adf Failed
def Validated

これはrawを使って行うこともできますawk。ヘッダー行を削除することができ、同じ順序で同じデータに依存しないため、ソートする必要がないという利点があります。

$ awk 'FNR != 1 && NR == FNR {data[$1]=$3} FNR != 1 && NR != FNR {if(data[$1]==$3) {print $1, "Validated"} else {print $1, "Failed"} }' in{1,2}
abc Validated
adf Failed
def Validated

これはいくつかの魔法のawk組み込み変数とそれに関連するトリックに依存します。

NR- 処理されたレコードの総数
FNR- 総レコード数現在のファイルに扱う
FNR != 1- 各ファイルの最初の行をスキップします。（ヘッダーはデータとして処理されません。）
NR != FNR- 最初のファイルを完全に読み込み、その後のファイルを読み始めた後にのみ実行されます。これにより、data2番目のファイルを噛み始めると、テスト用の配列を事前に埋めることができます。

Answer 1