段階的に

Question

このjoinコマンドは、複数のファイルで一致する行をリンクする操作を実行します。ただし、入力ファイルにはいくつかの要件があるため、プロセス中にいくつかの一時ファイルといくつかの追加フィールドを作成する必要があります。

awk '{printf $2" "$3" "$4" "$5"%"$1"%"; $1="";print $0 "%" NR }' < file1 | sort > 1.tmp
awk '{print $1" "$4" "$5" "$6"%"$2} $5 != $6 {print $1" "$4" "$6" "$5"%"$2}' < file2 | sort > 2.tmp

join -a 1 -t % -o 1.4 2.2 1.2 1.3  1.tmp 2.tmp | sort -t % -n | awk -F %  '!$2{$2=$3}{print $2" "$4}'

段階的に

最初のファイルを前処理します。

awk '{printf $2" "$3" "$4" "$5"%"$1"%"; $1="";print $0 "%" NR }''

出力例：

1 118630 C T%1:118630% 1 118630 C T 0.99 -0.033 0.055 5.5e-01 226311%4

この 4 つのフィールドは%次のように区別されます。

一致する必要がある「キー」（入力フィールド2-5）
元の最初の列（一致する項目がない場合は必須）
元の行の残りの部分
元の行番号（後でファイルの順序を復元できるようにsort）

この出力は入力をソートする必要があるため、一時ファイルsortにパイプされます。join

2番目のファイルの場合：

awk '{print $1" "$4" "$5" "$6"%"$2} $5 != $6 {print $1" "$4" "$6" "$5"%"$2}'

出力例：

1 118630 C T%1:118630_C_T
1 118630 T C%1:118630_C_T

フィールド5と6が一致するように指定すると、2行目が印刷され、互いに置き換えられます（同じでない場合）。ここで - で区切られたフィールド%は次のとおりです。

「キー」と一致する必要があります
2列

今回も出力はsort別の一時ファイルにパイプされます。

その後、主な「参加」ステップが続きます。

join -a 1 -t % -o 1.4 2.2 1.2 1.3  1.tmp 2.tmp

2番目のグループに一致するものがない場合は、 -a 1最初のグループの行を保持するように指示します。区切り文字を（スペースの代わりに）に設定します。このパラメーターは、次の4つの出力フィールドを生成します。join-t %%-o

ファイル1、列4：行番号
ファイル2、列2：代替場所file2（一致するものがない場合は空）
ファイル1、列2：元の列1file1
ファイル1、列3：行の残りの部分はfile1

サンプル出力ライン：

4%1:118630_C_T%1:118630% 1 118630 C T 0.99 -0.033 0.055 5.5e-01 226311

その後、sort元のファイルの順序を復元できます（数値ソート、フィールド区切り文字%）。

sort -t % -n

最後に、awk「交換」フィールドが空であることを確認し（一致する項目がないため）、空の場合は元の列1を使用します。また、行番号とすべてを捨てます%。

awk -F % '!$2{$2=$3}{print $2" "$4}'

最終出力ライン：

1:118630_C_T  1 118630 C T 0.99 -0.033 0.055 5.5e-01 226311

Answer 1

このjoinコマンドは、複数のファイルで一致する行をリンクする操作を実行します。ただし、入力ファイルにはいくつかの要件があるため、プロセス中にいくつかの一時ファイルといくつかの追加フィールドを作成する必要があります。

awk '{printf $2" "$3" "$4" "$5"%"$1"%"; $1="";print $0 "%" NR }' < file1 | sort > 1.tmp
awk '{print $1" "$4" "$5" "$6"%"$2} $5 != $6 {print $1" "$4" "$6" "$5"%"$2}' < file2 | sort > 2.tmp

join -a 1 -t % -o 1.4 2.2 1.2 1.3  1.tmp 2.tmp | sort -t % -n | awk -F %  '!$2{$2=$3}{print $2" "$4}'

段階的に

最初のファイルを前処理します。

awk '{printf $2" "$3" "$4" "$5"%"$1"%"; $1="";print $0 "%" NR }''

出力例：

1 118630 C T%1:118630% 1 118630 C T 0.99 -0.033 0.055 5.5e-01 226311%4

この 4 つのフィールドは%次のように区別されます。

一致する必要がある「キー」（入力フィールド2-5）
元の最初の列（一致する項目がない場合は必須）
元の行の残りの部分
元の行番号（後でファイルの順序を復元できるようにsort）

この出力は入力をソートする必要があるため、一時ファイルsortにパイプされます。join

2番目のファイルの場合：

awk '{print $1" "$4" "$5" "$6"%"$2} $5 != $6 {print $1" "$4" "$6" "$5"%"$2}'

出力例：

1 118630 C T%1:118630_C_T
1 118630 T C%1:118630_C_T

フィールド5と6が一致するように指定すると、2行目が印刷され、互いに置き換えられます（同じでない場合）。ここで - で区切られたフィールド%は次のとおりです。

「キー」と一致する必要があります
2列

今回も出力はsort別の一時ファイルにパイプされます。

その後、主な「参加」ステップが続きます。

join -a 1 -t % -o 1.4 2.2 1.2 1.3  1.tmp 2.tmp

2番目のグループに一致するものがない場合は、 -a 1最初のグループの行を保持するように指示します。区切り文字を（スペースの代わりに）に設定します。このパラメーターは、次の4つの出力フィールドを生成します。join-t %%-o

ファイル1、列4：行番号
ファイル2、列2：代替場所file2（一致するものがない場合は空）
ファイル1、列2：元の列1file1
ファイル1、列3：行の残りの部分はfile1

サンプル出力ライン：

4%1:118630_C_T%1:118630% 1 118630 C T 0.99 -0.033 0.055 5.5e-01 226311

その後、sort元のファイルの順序を復元できます（数値ソート、フィールド区切り文字%）。

sort -t % -n

最後に、awk「交換」フィールドが空であることを確認し（一致する項目がないため）、空の場合は元の列1を使用します。また、行番号とすべてを捨てます%。

awk -F % '!$2{$2=$3}{print $2" "$4}'

最終出力ライン：

1:118630_C_T  1 118630 C T 0.99 -0.033 0.055 5.5e-01 226311

段階的に

ベストアンサー1

段階的に

おすすめ記事