2つのファイルを結合された列を持つ単一のファイルにマージします。

Question

join -a1 -a2 -e 0 -o 0,1.2,1.3,2.2,2.3 \
    <(sed 's/ \+/_/' file1 | sort) \
    <(sed 's/ \+/_/' file2 | sort) | 
sed 's/_/ /' | 
column  -t | 
sort

chr   loc  T1  C1  T2  C2
chr1  100  2   3   1   2
chr1  200  3   4   0   0
chr1  300  0   0   4   1
chr2  100  1   4   7   5
chr2  400  3   1   0   0
chr2  500  0   0   1   9

sedここで最も要求の厳しい部分は、join単一のフィールドにのみ結合する理由です。ここで結合基準は最初の2つのフィールドです。したがって、これらのフィールドを単語にまとめる必要があります。最初のスペースシーケンスを下線に置き換えて、結合が表示されるようにしますchr1_100。chr1_200

join入力ファイルをソートする必要があります。

私は使うプロセスの交換これはjoinファイルと同様にパイプでも機能しますsed|sort。

その後、sedもう一度呼び出して結合フィールドをキャンセルしてcolumn素敵にします。

デフォルトでは、join各ファイルの最初のフィールドがキーフィールドとして使用されます。

デフォルトでjoin実行するかどうか内部結合：両方のファイルにあるキーのみを印刷します。-a1オプションを使用すると、必要-a2な完全な外部接続が可能になります。この-eオプションは、空のフィールドのデフォルト値を提供します。-oすべてのフィールドを指定するには、このオプションが必要です。

awkを使用することもできます。

awk '
    {key = $1 OFS $2} 
    NR == FNR {f1[key] = $3; f2[key] = $4; next} 
    !(key in f1) {print $1, $2, 0, 0, $3, $4; next} 
    {print key, f1[key], f2[key], $3, $4; delete f1[key]} 
    END {for (key in f1) print key, f1[key], f2[key], 0, 0}
' file1 file2 | sort

chr loc T1 C1 T2 C2
chr1 100 2 3 1 2
chr1 200 3 4 0 0
chr1 300 0 0 4 1
chr2 100 1 4 7 5
chr2 400 3 1 0 0
chr2 500 0 0 1 9

Answer 1

join -a1 -a2 -e 0 -o 0,1.2,1.3,2.2,2.3 \
    <(sed 's/ \+/_/' file1 | sort) \
    <(sed 's/ \+/_/' file2 | sort) | 
sed 's/_/ /' | 
column  -t | 
sort

chr   loc  T1  C1  T2  C2
chr1  100  2   3   1   2
chr1  200  3   4   0   0
chr1  300  0   0   4   1
chr2  100  1   4   7   5
chr2  400  3   1   0   0
chr2  500  0   0   1   9