1つのテキストファイルを約24の異なるテキストファイルと比較し、一致する場合は、各行の特定の列を印刷するにはどうすればよいですか？

Question

まあ、実際に私はこの質問をするのを忘れていましたが、誰かがこの投稿に投票し、私が見つけたので答えを投稿します。

上記の最初の出力フラグメントの場合

10      10011300        10011301        T       C
10      10012494        10012495        G       A
10      10028691        10028692        A       T
10      10093496        10093497        G       A
10      10102457        10102458        C       T
10      10103252        10103253        G       C
10      10122271        10122272        T       C
10      10128778        10128779        T       C
10      10130299        10130300        C       A
10      10148307        10148308        G       A

私がしなければならないのは、次のawkコマンドを使用することだけです。

cat [inputfile.txt] | awk '{print $1"_"$3"\t"$4"\t"$5}' | sort -k1,1 > outputfileA.txt

出力は次のとおりです。すべての行は最初の列に基づいてソートされます。

10_10011301        T       C
10_10012495        G       A
10_10028692        A       T
10_10093497        G       A

2番目のコード部分でも同じことを行います。

1       10177   rs367896724
1       10235   rs540431307
1       10352   rs555500075
1       10505   rs548419688
1       10506   rs568405545

同様の awk コマンドを使用して別のファイルを生成します。

cat [inputfile.txt] | awk '{print $1"_"$2"\t"$3}' | sort -k1,1 > outputfileB.txt

次に続く:

1_10177   rs367896724
1_10235   rs540431307
1_10352   rs555500075
1_10505   rs548419688
1_10506   rs568405545

両方の出力ファイルには1つの列があり、列の順序は同じであるため、Joinコマンドを呼び出すことができます。

join -1 1 -2 2 outputfileA.txt outputfileB.txt | tr ' ' '\t' > outputfileC.txt

tr ' ' '\t'出力のすべてのスペースをタブに変換します。最初のファイルの最初の列と 2 番目のファイルの 1 番目の列の間に等しく一致するすべての行が出力ファイルに書き込まれます。これは次のとおりです。

1_101850899     A       C       rs138958619
1_101856556     T       C       rs191666242
1_101867058     C       T       rs188447998
1_101874381     A       C       rs143747209
1_101877269     G       A       rs186149522
1_101878704     C       A       rs192815769
1_101885657     G       T       rs150829467
1_101891797     T       G       rs141886478
1_101893793     T       A       rs182950692
1_101897192     T       C       rs189527356

よく説明してほしいです。明確にする必要がある場合は、お知らせください。

Answer 1