共通列に基づいてタブで区切られた複数のテーブルのマージ

Question

joinGNU関数coreutilsはほぼ何をしたいですか - 両方のファイルが同時に欠落している現象を処理する方法が見つかりませんが、

sort -u \
<(join --header --nocheck-order -t$'\t' -a1 -o 1.1,1.2,2.2 -11 -21 -e'-' file1 file2) \ 
<(join --header --nocheck-order -t$'\t' -a2 -o 2.1,1.2,2.2 -11 -21 -e'-' file1 file2)
100001  C       C
228201  T       -
312002  -       C
341791  T       T
380441  C       C
392640  T       -
412640  -       A
459055  A       A
459079  T       T
464056  -       T
480253  T       -
492633  A       A
570405  T       T
Position        Poly    Poly

ヘッダー行は一番下に並べられます。これが問題の場合は、パイプsed '$d'または削除できますhead -n -1。あるいは、ソートされていない出力が許可されている場合は、ieの代わりに重複するawkエントリsort -uを削除することもできます。

awk '!a[$1]++' \
<(join --header --nocheck-order -t$'\t' -a1 -o 1.1,1.2,2.2 -11 -21 -e'-' file1 file2) \
<(join --header --nocheck-order -t$'\t' -a2 -o 2.1,1.2,2.2 -11 -21 -e'-' file1 file2)
Position        Poly    Poly
100001  C       C
228201  T       -
341791  T       T
380441  C       C
392640  T       -
459055  A       A
459079  T       T
480253  T       -
570405  T       T
492633  A       A
312002  -       C
412640  -       A
464056  -       T

Answer 1

joinGNU関数coreutilsはほぼ何をしたいですか - 両方のファイルが同時に欠落している現象を処理する方法が見つかりませんが、

sort -u \
<(join --header --nocheck-order -t$'\t' -a1 -o 1.1,1.2,2.2 -11 -21 -e'-' file1 file2) \ 
<(join --header --nocheck-order -t$'\t' -a2 -o 2.1,1.2,2.2 -11 -21 -e'-' file1 file2)
100001  C       C
228201  T       -
312002  -       C
341791  T       T
380441  C       C
392640  T       -
412640  -       A
459055  A       A
459079  T       T
464056  -       T
480253  T       -
492633  A       A
570405  T       T
Position        Poly    Poly

ヘッダー行は一番下に並べられます。これが問題の場合は、パイプsed '$d'または削除できますhead -n -1。あるいは、ソートされていない出力が許可されている場合は、ieの代わりに重複するawkエントリsort -uを削除することもできます。

awk '!a[$1]++' \
<(join --header --nocheck-order -t$'\t' -a1 -o 1.1,1.2,2.2 -11 -21 -e'-' file1 file2) \
<(join --header --nocheck-order -t$'\t' -a2 -o 2.1,1.2,2.2 -11 -21 -e'-' file1 file2)
Position        Poly    Poly
100001  C       C
228201  T       -
341791  T       T
380441  C       C
392640  T       -
459055  A       A
459079  T       T
480253  T       -
570405  T       T
492633  A       A
312002  -       C
412640  -       A
464056  -       T

共通列に基づいてタブで区切られた複数のテーブルのマージ

ベストアンサー1

おすすめ記事