awkを使用して別のファイルの複数の列をリンクします。

awkを使用して別のファイルの複数の列をリンクします。

次の4つのtsv(タブ区切り)ファイルがあります。

ファイル1:

abc 1
def 2
ghi 3

ファイル_2:

abc 2
ghi 3

ファイル_3:

def 1
ghi 2
jkl 4

ファイル_4:

ghi 3
jkl 4

このファイルを組み合わせて、次の1つのtsvファイルを取得したいと思います。

dataset file_1 file_2 file_3 file_4
abc     1      2             
def     2      4            
ghi     3      3      2      3
jkl                   4      4

使ってみました。awk

$ awk '
    BEGIN{OFS=FS="\t"} 
    FNR==1{f = f "\t" FILENAME} 
    NR==FNR{a[$1] = $2} 
    NR!=FNR{a[$1] = a[$1] "\t" $2} 
    END{printf "dataset%s\n", f; for(i in a) print i, a[i]}
  ' file_{1..4}

このコマンドは機能しますが、値が送信されます。 1列目と2列目の値がnullで、3列目と4列目の値が4と4の場合、このコマンドで得られる出力は1列目と2列目の値は4ですが、3列目と4列目は値があります。です。 NULL値があります。そこで私がawk言及した内容を使ってTSVファイルを個別に結合しようとしました。まず、forfile_1file_2getを実行してoutput_1から、Joinfile_3file_4getを実行しますoutput_2。その後、出力_1と出力_2のマージを使用します$ join output_1 output_2が、4つのファイルの値のみを取得します。 1つのファイルにのみ存在していたデータを失いました。

アドバイスいただきありがとうございます。

ありがとう

ベストアンサー1

$ cat tst.awk
BEGIN { FS=OFS="\t" }
{ datasets[$1]; fnames[FILENAME]; vals[$1,FILENAME] = $2 }
END {
    printf "%s", "dataset"
    for (fname in fnames) {
        printf "%s%s", OFS, fname
    }
    print ""
    for (dataset in datasets) {
        printf "%s", dataset
        for (fname in fnames) {
            printf "%s%s", OFS, vals[dataset,fname]
        }
        print ""
    }
}

$ tail -n +1 file?
==> file1 <==
a       1
b       2
c       3

==> file2 <==
a       2
c       3

$ awk -f tst.awk file1 file2
dataset file1   file2
a       1       2
b       2
c       3       3

リストに必要なだけファイルを追加します。

おすすめ記事