FASTQヘッダーをシーケンス読み取りに再追加

Question

私は次の仮定をします。

すべてのレコードには正確に4つの行があります。これはいいえfastq形式に必要ですが、短い読み取りデータの場合であることがよくあります。
:バーコードは常に最初の行から始まり、4行ごとに最後の文字の後の最後の文字です。

これらの仮定が成立している場合は、次のことができます。

awk -F':' 'NR % 4 == 1 {seq=$NF}
     NR % 4 == 2 { $0=$0 seq}1' R1test.fq > R1test_new.fq

これはあなたのコードに似たアイデアです。不要な手順を削除し、いくつかの問題を解決しました。最後は1awkの「この行の印刷」の略語です。

-Fフィールド区切り文字を設定するためにコードで使用を設定できないため、コードは機能しません。awkこれはawk言語の機能ではなく-Fバイナリのオプションです。awkawkスクリプトでフィールド区切り文字を変更するには、FS変数（たとえばBEGIN{FS=":"}）を使用できます。次に、フィールド区切り文字を変更しても、コードが実行される前に行がすでに分割されているため、問題になりません。ブロック内でのみ区切り文字を設定できますBEGIN{}。別の場所に設定した場合は、awkにその行を再分析するように指示する必要があります。とにかく、あなたは:フィールドセパレータではないことを望みます;。

警告する:

シーケンスの長さがフレッド品質スコアの長さと一致しないため、実行しようとするダウンストリーム処理が中断される可能性があります。これは本当に良いアイデアだと確信していますか？

Answer 1