2 番目のファイルのパターンマッチングに基づく最初のファイルのフィールドマッピング

Question

file1を解析し、$2値（）をキー（$1）にマッピングし、行（file2）の一部がキーと一致する場合は、解析して$3値を行に追加できます。

BEGIN {OFS = FS = "\t"}
FNR == NR {arr[$1] = $2; next}
{for (x in arr) if ($3 ~ x) {$0 = $0 " " arr[x]; break}}
{print}

これはあなたの例の正しい結果を印刷しますが、いくつかの理由で望ましい結果ではありません。 1つ目は、などさまざまな状況で失敗する可能性があるということprotein_1.p1ですprotein_1.p11。 2番目の理由はパフォーマンスです。 file2の各行の時間は一定ではありませんが、サイズは〜ですfile1。

したがって、上記のスクリプトを変更する必要があります。タンパク質文字列と一致する正規表現を定義できます。これにより、一致が十分に厳しくなり、2番目の解析では、時間は配列サイズではなくフィールドの正規表現の一致に依存します。

BEGIN {OFS = FS = "\t"; re = "\\<protein_[[:digit:]]+.p[[:digit:]]+\\>"}
FNR == NR {if ($1 ~ re) arr[$1] = $2; next}
match($3, re) {$0 = $0 " " arr[substr($3,RSTART,RLENGTH)]}
{print}

メモ:

re：「タンパク質_」の後に、1つ以上の数字、「.p」、および1つ以上の数字がすべて、これらの内部単語境界内にあります。ドットは文字通りです。単語文字は[:alnum:]、残りは_境界です。
また、最初のフィールドに対して完全性チェックが行われますfile1。
aが見つかると、match()組み込み変数は一致する文字列のインデックスと長さをRSTART保持し、RLENGTHこの部分文字列はハッシュに使用されます。

使用法:

> awk -f tst.awk file1 file2
chromosome_1    programID   transcript_id "protein_1.p1"; parent "protein_1"; note "PJD5F7, match to databaseID=64575, (species X)";
chromosome_1    programID   transcript_id "protein_1.p2"; parent "protein_1"; note "PJD5F7, match to databaseID=64575, (species X)";
chromosome_1    programID   transcript_id "protein_2.p1"; parent "protein_2"; 
chromosome_1    programID   transcript_id "protein_2.p2"; parent "protein_2"; 
chromosome_1    programID   transcript_id "protein_3.p1"; parent "protein_3"; note "PA5F9H, match to databaseID=93689, (species W)";
chromosome_1    programID   transcript_id "protein_4.p1"; parent "protein_4"; note "Q7GT5J, match to databaseID=89045, (species Y)";
chromosome_1    programID   transcript_id "protein_4.p2"; parent "protein_4"; 
chromosome_1    programID   transcript_id "protein_4.p3"; parent "protein_4"; note "YE6G3L, match to databaseID=44968, (species Z)";

Answer 1

file1を解析し、$2値（）をキー（$1）にマッピングし、行（file2）の一部がキーと一致する場合は、解析して$3値を行に追加できます。

BEGIN {OFS = FS = "\t"}
FNR == NR {arr[$1] = $2; next}
{for (x in arr) if ($3 ~ x) {$0 = $0 " " arr[x]; break}}
{print}

これはあなたの例の正しい結果を印刷しますが、いくつかの理由で望ましい結果ではありません。 1つ目は、などさまざまな状況で失敗する可能性があるということprotein_1.p1ですprotein_1.p11。 2番目の理由はパフォーマンスです。 file2の各行の時間は一定ではありませんが、サイズは〜ですfile1。

したがって、上記のスクリプトを変更する必要があります。タンパク質文字列と一致する正規表現を定義できます。これにより、一致が十分に厳しくなり、2番目の解析では、時間は配列サイズではなくフィールドの正規表現の一致に依存します。

BEGIN {OFS = FS = "\t"; re = "\\<protein_[[:digit:]]+.p[[:digit:]]+\\>"}
FNR == NR {if ($1 ~ re) arr[$1] = $2; next}
match($3, re) {$0 = $0 " " arr[substr($3,RSTART,RLENGTH)]}
{print}

メモ:

re：「タンパク質_」の後に、1つ以上の数字、「.p」、および1つ以上の数字がすべて、これらの内部単語境界内にあります。ドットは文字通りです。単語文字は[:alnum:]、残りは_境界です。
また、最初のフィールドに対して完全性チェックが行われますfile1。
aが見つかると、match()組み込み変数は一致する文字列のインデックスと長さをRSTART保持し、RLENGTHこの部分文字列はハッシュに使用されます。

使用法:

> awk -f tst.awk file1 file2
chromosome_1    programID   transcript_id "protein_1.p1"; parent "protein_1"; note "PJD5F7, match to databaseID=64575, (species X)";
chromosome_1    programID   transcript_id "protein_1.p2"; parent "protein_1"; note "PJD5F7, match to databaseID=64575, (species X)";
chromosome_1    programID   transcript_id "protein_2.p1"; parent "protein_2"; 
chromosome_1    programID   transcript_id "protein_2.p2"; parent "protein_2"; 
chromosome_1    programID   transcript_id "protein_3.p1"; parent "protein_3"; note "PA5F9H, match to databaseID=93689, (species W)";
chromosome_1    programID   transcript_id "protein_4.p1"; parent "protein_4"; note "Q7GT5J, match to databaseID=89045, (species Y)";
chromosome_1    programID   transcript_id "protein_4.p2"; parent "protein_4"; 
chromosome_1    programID   transcript_id "protein_4.p3"; parent "protein_4"; note "YE6G3L, match to databaseID=44968, (species Z)";

2 番目のファイルのパターンマッチングに基づく最初のファイルのフィールドマッピング

ベストアンサー1

おすすめ記事