2つのファイルの列をマージし、重複を削除し、不足している行を埋める方法

Question

簡単な方法は、awkで2D配列を使用することです。

FNR==NR {a[$1FS$2][0]=$4FS$5FS$6; next}
        {a[$1FS$2][1]=$4FS$5FS$6}
END {
    empty="0"FS"0"FS"0"
    for(i in a)
        print i FS (a[i][0]? a[i][0] : empty) FS (a[i][1]? a[i][1] : empty)
}

スクリプトをファイルとして保存して実行できます。

awk -f main.awk file1 file2

説明する

最初の行はfile1をスキャンし、関連キーとともに必要な列FNR==NRを配列に保存します。$4 $5 $6$1 $2a[$1FS$2][0]
2行目はデフォルトでfile2で同じことを行いますが、値を配列に保存しますa[$1FS$2][1]。 awkの配列は次のようになるため、これらの配列割り当て操作は自動的に重複エントリを削除します。関連つまり、各キーは一度だけ表示できることを意味します。
内部の最後のステップでEND各行を印刷し、各NULL値を事前定義された文字列に置き換えます。0 0 0
出力をインデックス値に基づいて昇順に並べ替えるには、PROCINFO["sorted_in"] = "@ind_str_asc"内部の最初の行にaを追加します。END

時間があれば、マニュアルをよく読んでおくと便利です。Gawkプログラミングガイド

Answer 1

簡単な方法は、awkで2D配列を使用することです。

FNR==NR {a[$1FS$2][0]=$4FS$5FS$6; next}
        {a[$1FS$2][1]=$4FS$5FS$6}
END {
    empty="0"FS"0"FS"0"
    for(i in a)
        print i FS (a[i][0]? a[i][0] : empty) FS (a[i][1]? a[i][1] : empty)
}

スクリプトをファイルとして保存して実行できます。

awk -f main.awk file1 file2

説明する

最初の行はfile1をスキャンし、関連キーとともに必要な列FNR==NRを配列に保存します。$4 $5 $6$1 $2a[$1FS$2][0]
2行目はデフォルトでfile2で同じことを行いますが、値を配列に保存しますa[$1FS$2][1]。 awkの配列は次のようになるため、これらの配列割り当て操作は自動的に重複エントリを削除します。関連つまり、各キーは一度だけ表示できることを意味します。
内部の最後のステップでEND各行を印刷し、各NULL値を事前定義された文字列に置き換えます。0 0 0
出力をインデックス値に基づいて昇順に並べ替えるには、PROCINFO["sorted_in"] = "@ind_str_asc"内部の最初の行にaを追加します。END

時間があれば、マニュアルをよく読んでおくと便利です。Gawkプログラミングガイド

2つのファイルの列をマージし、重複を削除し、不足している行を埋める方法

ベストアンサー1

おすすめ記事