ファイル間で2つのデフォルト列を一致させ、これらのデフォルト列が一致する場合は、追加の列を出力ファイルに貼り付けます。最初のファイルの行サイズを一定に保つ

Question

次のファイルを生成します。

merge21:

開始{
        FS="\t"
        OFS = "\t"
}
NR==FNR { #ファイル2
        キー=$2","$3
        存在[キー] = 1
        小さな8[キー] =1
        Next
}
{#ファイル1
        キー=$1 "," $3
        if (現在[キー]) $1, $2, $3, $4,マイナー8 [キー]
        それ以外の場合は、$1、$2、$3、$4、「-」を印刷します。
}

merge312:

開始{
        FS="\t"
        OFS = "\t"
}
NR==FNR { #ファイル3
        キー=$1","$2
        存在[キー] = 1
        小さな9[キー] =$3
        Next
}
{#ファイル1 +ファイル2
        キー=$1 "," $3
        if (現在[キー]) $1, $2, $3, $4,$5、未成年者9 [鍵]
        それ以外の場合は、$1、$2、$3、$4 を印刷します。5ドル、「-」
}

それらはほぼ同じです。違いを太字にしました。ここでコマンドを入力してください。

awk -f merge21 file2 file1 | awk -f merge312 file3 -

これは、キーフィールドにコンマが含まれておらず、データにハイフンが含まれていないと仮定しますが、実際には存在するかどうかによって異なります。一部データに表示されない文字列です。より多くの列をサポートするためにこれを拡張することは容易ではありません。これできる一度にすべてのタスクを実行するように改善できますが、awkこれはもう少し複雑で（IMNSHO）努力する価値はありません。

これにより、ファイル内のデータのいわゆる「左外部結合」が生成されます。INNER接続とOUTER接続の違いいくつかの定義については、スタックオーバーフローを確認してください。（「左外部結合」は、この質問に対する回答で「最初のテーブルのすべての行と他のテーブルの共通行」として定義（説明）されます。

あなたの出力は次のとおりです

MAIN1   minor1  MAIN2   minor3  minor8  minor9
1       bla1    a       blabla1 yes6    sure3
1       bla2    b       blabla2 yes7    sure4
1       bla3    c       blabla3 yes8    sure5
2       bla4    a       blabla4 yes9    sure6
2       bla5    d       blabla5 -       sure7
3       bla6    e       blabla6 yes2    sure8
4       bla7    f       blabla7 yes3    sure9
5       bla8    a       blabla8 yes4    -
5       bla9    g       blabla9 yes5    sure2

そして当然削除することもできます。-文字対sed（もちろん、実際のデータに実際にハイフンが含まれている場合は、欠落しているデータのプレースホルダとして使用されていない文字または文字列を選択してください。）

ノート

FSとはOFS、それぞれ入力フィールド区切り記号と出力フィールド区切り記号です。（明らかIFSに意味はありませんawk。それは私の間違いでした。）実際には必要ありませんFS="\t"。 awkタブはデフォルトで入力のフィールド区切り文字として認識されます。（スペースを含むフィールドを持つことはできますがOFS="\t"、それには興味がないようです） print $1, $2, $3, $4 。出力それらの間にラベルがあります。と言わないとOFS="\t"空白で区切られるのでprint $1 "\t" $2 "\t" $3 "\t" $4退屈で読みやすさが落ちます。
MAIN1とMAIN2に追加の制約が与えられている場合（たとえば、常に1文字、またはMAIN1は常に数値で、MAIN2は常に文字で始まる）,（）にカンマは必要ありませんkey。しかし、最初の質問の元のバージョンにはそのような制限はありませんでした。次のデータを考慮してください。
```
MAIN1 ($2)         MAIN2 ($3)         badkey = $2 $3         goodkey = $2 "," $3
    2              34151                  234151                   2,34151
   23               4151                  234151                   23,4151
```
キーフィールド（MAIN1とMAIN2）に表示されない一部の区切り文字がキーに含まれていない場合は、他の行keyに対して同じ値を取得できます。
トッピングを捕まえる危険があるので、私はLinuxに何も言わない。ただLinuxに話しかけるだけです。awk何をすべきか教えてください。
コードについて
```
NR==FNR { # ファイル 3
        キー=$1 "," $2
        存在[キー] = 1
        小さい 9[キー] = $3
        Next
}
```
file3を含む7番目から最後の行を検討してください1 a sure3。明らかに$1= 1、$2= a、$3=があるので=sure3です。私が表示するためにフラグに設定したことを意味します。key1,apresent[key] = 1present["1,a"]1file3 持つつまり1,a、 = にminor9値があります。行がないため何も設定されていないため、コードの「」部分には=の内容がないことを知って印刷する必要があります。key1,a5,afile3present["5,a"]file1 + file2minor9key5,a-代わりに。名前はpresent私がランダムに選択したものです1,a。展示するfile3 （行ではありません）です5,a。1表現するには、「TRUE」を使用するのが一般的です。
print $1, $2, $3, $4 に変更できます。for (n=1; n<=4; n++) printf "%s\t", $n最後のフィールドにprint 通常（代わりに）を使用するか、次のようにして行を終了する必要があります。次の作業を行うことで、さらに簡素化できます。printfprintf "\n"
```
        for (n=1; n<=4; n++) printf "%s\t", $n
        if (現在[キー]) major8[キー]を印刷します。
        それ以外の場合は「-」を印刷します。
```

読んでくださいアーク(1)、これPOSIX仕様awk、 GNU Awkユーザーガイドと見るawk.infoより多くの情報を知りたいです。

Answer 1