リストからfastaエントリを抽出するには、読みながら使用してください。

Question

シェルは、この種の解析には実際には適していません。コードからファイル全体を一度読むことがわかります。各ファイルから読み取った遺伝子名gene.txt。

以下の単一のコマンドは、awk同じ操作をより迅速に実行します。

awk -F '>' '
    FNR == NR           { genes[$1]; next }
    /^>/ && $2 in genes { if (out != "") close(out);
                          out = $2 ".fa"
                          split(FILENAME, a, "_")
                          $0 = ">" a[1] "_" $2 }
    out != ""           { print >>out }' genes.txt *_ref.fasta

まずgenes.txt、ファイルを読み取り、genes遺伝子名をキーとして使用して、そのファイルから呼び出される連想配列を作成します。

Fastaファイルに到達すると（コードはこれらのファイルがすべて次のように呼び出されると仮定しますXXX_ref.fasta）、Fastaヘッダーを読み取り、ヘッダーの遺伝子がリストのキーであるgenesときに遺伝子名から出力を生成します。 filenameをアンダーgenename.faスコアの前に現在のファイル名部分を含めるようにヘッダーを再構築します。

元のヘッダーがXXX_ref.fasta次のような場合

>genename

これは次のように変換されます。

>XXX_genename

スクリプトの最後の部分は、awkすべての行を適切な出力ファイルに送信します。

提供したデータでテストすると、次の3つのファイルが生成されます。

$ ls *.fa
FBgn0070974.fa FBgn0076379.fa FBgn0080937.fa

$ cat FBgn0076379.fa
>CR1_FBgn0076379
ATGCTGCGCACCCTTTTCGCCGTGCGTGGTCAGTGCCAGCAGCTGCTGAGGAGAACATTCACCCCCCATTGCAGTGGCCAACGA

Answer 1