awkを使用して、シーケンスの長さに基づいてfastqファイルのサブセットを指定します。

Question

レコードとフィールドの区切り文字を使用して、awk が改行とスペースを使用できないようにすることができます。代わりに、「\n@」を使用してレコードの区切りを表示し、通常の「\n」を使用してフィールドを区切ることができます。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

各行は異なるフィールドなので、$ 2を使用して2行目の長さを確認できます。レコード区切り文字に食べられるため、印刷時に「@」を追加する必要があります。

Answer 1

レコードとフィールドの区切り文字を使用して、awk が改行とスペースを使用できないようにすることができます。代わりに、「\n@」を使用してレコードの区切りを表示し、通常の「\n」を使用してフィールドを区切ることができます。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

各行は異なるフィールドなので、$ 2を使用して2行目の長さを確認できます。レコード区切り文字に食べられるため、印刷時に「@」を追加する必要があります。

awkを使用して、シーケンスの長さに基づいてfastqファイルのサブセットを指定します。

ベストアンサー1

おすすめ記事