fastaファイルを線形化し、特殊文字を削除します。

Question

これをしないでください。回避できる場合は、Windowsでファイルを開かないでください。 Windowsの行末を使用するように変換するとファイルが破損するため、標準のバイオインフォマティクスツールでは使用できなくなります。ほとんどはDesigned for *用に設計されています。ニックスシステム。これが原因です質問あなたは余分なものを持っています^M。

したがって、最初の回避策はWindowsシステムを含まないことです。必要に応じて行末を変更する必要があります。したがって、*nixや他のシステムではなく、Windows上でファイルが縮小されたように見え、Windowsシステムでも実行されない限り、ファイルに対して実行しようとするすべてのダウンストリーム処理が中断されることに注意してください。 GNUawkやその他のシステムでは、次のことができます。使用：

awk '{ if(/^>/){ print NR==1 ? $0"\r" : "\r\n"$0"\r"}else{ printf "%s",$0}} END{print "\r"}' Sequences.fa

またはPerlを使用して：

perl -ne 'chomp; if(/^>/){$.==1 ? print "$_\r\n" : print "\r\n$_\r\n"}else{s/\n//g; print}END{print "\r\n"}' Sequences.fa

最後に、これを行う理由がほとんどないことに注意してください。 Fasta形式は複数行を受け入れ、ほとんどのシーケンスは実際には複数行に分割されます（通常60文字）。これは正常です。複数行のシーケンスも許可する fastq 型の人気以来、この 1 行シーケンスが拡散されることを見たことがありますが、主に短い読み出しに使用されるため、実際に複数行の項目を実際に見ることはほとんどありません。とにかく、fastaを処理するように設計されたすべてのプログラムは複数行のシーケンスに完全に適しているため、これはおそらく不要です。

Answer 1

これをしないでください。回避できる場合は、Windowsでファイルを開かないでください。 Windowsの行末を使用するように変換するとファイルが破損するため、標準のバイオインフォマティクスツールでは使用できなくなります。ほとんどはDesigned for *用に設計されています。ニックスシステム。これが原因です質問あなたは余分なものを持っています^M。

したがって、最初の回避策はWindowsシステムを含まないことです。必要に応じて行末を変更する必要があります。したがって、*nixや他のシステムではなく、Windows上でファイルが縮小されたように見え、Windowsシステムでも実行されない限り、ファイルに対して実行しようとするすべてのダウンストリーム処理が中断されることに注意してください。 GNUawkやその他のシステムでは、次のことができます。使用：

awk '{ if(/^>/){ print NR==1 ? $0"\r" : "\r\n"$0"\r"}else{ printf "%s",$0}} END{print "\r"}' Sequences.fa

またはPerlを使用して：

perl -ne 'chomp; if(/^>/){$.==1 ? print "$_\r\n" : print "\r\n$_\r\n"}else{s/\n//g; print}END{print "\r\n"}' Sequences.fa

最後に、これを行う理由がほとんどないことに注意してください。 Fasta形式は複数行を受け入れ、ほとんどのシーケンスは実際には複数行に分割されます（通常60文字）。これは正常です。複数行のシーケンスも許可する fastq 型の人気以来、この 1 行シーケンスが拡散されることを見たことがありますが、主に短い読み出しに使用されるため、実際に複数行の項目を実際に見ることはほとんどありません。とにかく、fastaを処理するように設計されたすべてのプログラムは複数行のシーケンスに完全に適しているため、これはおそらく不要です。

fastaファイルを線形化し、特殊文字を削除します。

ベストアンサー1

おすすめ記事