タブ区切りバージョン

Question

区切り文字としてスペースがあるとします。

$ while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2; done <file1
LOC102908761
Rftn1
LOC102913870

説明する

while read -r id pos; do FOO; done <file1：これはfile11行ずつ読み、最初のフィールド（たとえばNW_006502347.1）をシェル変数に入れ、2番目のフィールド$id（たとえば316684）をシェル変数に入れます$pos。その後、FOO各行に対して実行されます。
awk -v id="$id" -v pos="$pos" 'BAR' <file2：の各行に対して実行するコマンドをfile1実行します。これにより、一致する部品が検索されます。このスクリプトには、シェルから2つの「外部」変数を知らせる必要があります。つまり、awk変数にはシェル変数と同じ値が割り当てられ、awk変数とシェル変数にも同じ値が割り当てられます。awkBARfile2awkid$idpos$pos
$1 == id && pos > $4 && pos < $5：これはスクリプトの「条件付き」部分ですawk。これらの条件が満たされると、次のコマンドが実行されます。ここでは、最初のフィールドが$1現在の行と同じで、のfile24番目と5番目のフィールドの間にあることを確認します。idfile1pos$4$5file2
{ print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }：上記の条件が満たされると、このコードが実行されます。私たちはそれを最初に変えたいと思いますgensub。gene=英数字文字列の後にランダムな長さが続く文字列を検索します([A-Za-z0-9]*)。英数字の文字列は(括弧で囲まれます。また、文字列全体の前後のすべての文字を)「検索」します。したがって、これは行全体を「検索」し（最初で唯一の）キャプチャグループである次の英数字文字列に置き換えます。最終的に最初の項目を置き換えることを意味しますが、1行に一致が1つしかないと仮定するため、これは意味がありません。.*gene=([A-Za-z0-9]*)"\\1"gene=1gene=

タブ区切りバージョン

一般的に、私はタブで区切られたファイルを使用することを好みます。これにより、特にフィールド9でスペースを区別できます。

while IFS=$'\t' read -r id pos; do awk -F'\t' -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2.tsv ; done <file1.tsv

スクリプトの変更は、タブでシェル行とIFS=$'\t'行awkを明示的に分割することです-F'\t'。

Answer 1

区切り文字としてスペースがあるとします。

$ while read -r id pos; do awk -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2; done <file1
LOC102908761
Rftn1
LOC102913870

説明する

while read -r id pos; do FOO; done <file1：これはfile11行ずつ読み、最初のフィールド（たとえばNW_006502347.1）をシェル変数に入れ、2番目のフィールド$id（たとえば316684）をシェル変数に入れます$pos。その後、FOO各行に対して実行されます。
awk -v id="$id" -v pos="$pos" 'BAR' <file2：の各行に対して実行するコマンドをfile1実行します。これにより、一致する部品が検索されます。このスクリプトには、シェルから2つの「外部」変数を知らせる必要があります。つまり、awk変数にはシェル変数と同じ値が割り当てられ、awk変数とシェル変数にも同じ値が割り当てられます。awkBARfile2awkid$idpos$pos
$1 == id && pos > $4 && pos < $5：これはスクリプトの「条件付き」部分ですawk。これらの条件が満たされると、次のコマンドが実行されます。ここでは、最初のフィールドが$1現在の行と同じで、のfile24番目と5番目のフィールドの間にあることを確認します。idfile1pos$4$5file2
{ print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }：上記の条件が満たされると、このコードが実行されます。私たちはそれを最初に変えたいと思いますgensub。gene=英数字文字列の後にランダムな長さが続く文字列を検索します([A-Za-z0-9]*)。英数字の文字列は(括弧で囲まれます。また、文字列全体の前後のすべての文字を)「検索」します。したがって、これは行全体を「検索」し（最初で唯一の）キャプチャグループである次の英数字文字列に置き換えます。最終的に最初の項目を置き換えることを意味しますが、1行に一致が1つしかないと仮定するため、これは意味がありません。.*gene=([A-Za-z0-9]*)"\\1"gene=1gene=

タブ区切りバージョン

一般的に、私はタブで区切られたファイルを使用することを好みます。これにより、特にフィールド9でスペースを区別できます。

while IFS=$'\t' read -r id pos; do awk -F'\t' -v id="$id" -v pos="$pos" '$1 == id && pos > $4 && pos < $5 { print gensub(/.*gene=([A-Za-z0-9]*).*/, "\\1", 1) }' <file2.tsv ; done <file1.tsv

スクリプトの変更は、タブでシェル行とIFS=$'\t'行awkを明示的に分割することです-F'\t'。

タブ区切りバージョン

ベストアンサー1

説明する

タブ区切りバージョン

おすすめ記事