fastaファイルを解読するawk公式を理解する

Question

これはあなたのawkスクリプトです：

/^>/ {
    print s ? s "\n" $0 : $0;
    s = "";
    next;
}

{
    s = s sprintf("%s", $0);
}

END {
    if (s)
      print s;
}

>最初のブロックは、行が（つまり、fastaヘッダー行）で始まる場合にのみトリガされます。

最初のブロックには何かが印刷されます。それはs ? s "\n" $0 : $0。これは、「sゼロ以外の場合（または設定されていない場合）、改行s文字を使用して追加し、現在の行全体を追加し、そうでない場合は現在の行全体を使用する」ことを意味します。このプログラムでは、s最後に処理されたヘッダー行に属する部分読み取りシーケンスがあり、プログラムがヘッダー行に到達すると、このステートメントはprint最後のシーケンス（現在完了）を出力し、新しく見つかったヘッダーに続きます。新しい回線にあります。

その後、ブロックはs空の文字列に設定され（まだこのヘッダーに属するシーケンスを読み取っていない）、次の入力ラインにジャンプします。

next次のブロックはすべての入力行に対して実行されます（ただし、前のブロックの入力行のためスキップされるため、ヘッダー行では実行されません）。現在行を使用しているs。に追加しますsprintfが、理由はわかりません（うまくいくs = s $0かもしれません）。

すべての入力ラインを読み取った後、最後のブロックが実行されます。最後のヘッダー行（存在する場合）に属するシーケンスを印刷します。

要約：

スクリプトawkはすべての個々のシーケンス行を変数に保存してリンクします。ヘッダ行が見つかると、これまでに読み込んだシーケンスを独自の行の新しいヘッダとともに出力します。最後に、最後のヘッダーに属するシーケンスが出力されます。

awk変数にシーケンスを保存しない代替スクリプト（fastaファイルに非常に大きなゲノムがある場合に便利です）：

/^>/ {
    if (NR == 1) {
        print;  # 1st header line, just print it.
    } else {
        # Print a newline for the prev. sequence, then the header line on its own line.
        printf("\n%s\n", $0);
    }
    next; # Skip to next input line.
}

{
    printf("%s", $0); # Print sequence without newline.
}

END {
    printf("\n"); # Add final newline to output.
}

「一行」で：

awk '/^>/{if(NR==1){print}else{printf("\n%s\n",$0)}next} {printf("%s",$0)} END{printf("\n")}' sequence.fasta

Answer 1