fastaファイルからシーケンスを抽出する

Question

線が長いようですね。 sedとawkはこの操作を処理するために利用可能なメモリを使用するため、問題が発生する可能性があります（もちろん、ファイルサイズ/行の長さによって異なります）。したがって、2段階のアプローチが採用されていますが、メモリの制限により、tr上記のawk、perl、またはsedソリューションのいずれかを使用できます。

head -20 inputfile | 
tr '>' '\n'  > stage1
perl -ne 'print ">$1 $2\n" if /^(.*?)([ACGTU]+)$/ && length($2)>1000' < stage1 > output

最初の20行の外観が満足のいくものであれば、実際には単一のパイプラインでこれを行うことができます。

tr '>' '\n' inputfile | 
perl -ne 'print ">$1 $2\n" if /^(.*?)([ACGTU]+)$/ && length($2)>1000' > output

私のPerlスクリプトは他のスクリプトほど効率的ではありませんが、作業を完了する必要があります。明確にするために書きました。 1000以上の塩基対を含む行がある場合にのみラベルを印刷し、その後にスペース、関連する塩基対、および改行文字を印刷します。

Answer 1

線が長いようですね。 sedとawkはこの操作を処理するために利用可能なメモリを使用するため、問題が発生する可能性があります（もちろん、ファイルサイズ/行の長さによって異なります）。したがって、2段階のアプローチが採用されていますが、メモリの制限により、tr上記のawk、perl、またはsedソリューションのいずれかを使用できます。

head -20 inputfile | 
tr '>' '\n'  > stage1
perl -ne 'print ">$1 $2\n" if /^(.*?)([ACGTU]+)$/ && length($2)>1000' < stage1 > output

最初の20行の外観が満足のいくものであれば、実際には単一のパイプラインでこれを行うことができます。

tr '>' '\n' inputfile | 
perl -ne 'print ">$1 $2\n" if /^(.*?)([ACGTU]+)$/ && length($2)>1000' > output

私のPerlスクリプトは他のスクリプトほど効率的ではありませんが、作業を完了する必要があります。明確にするために書きました。 1000以上の塩基対を含む行がある場合にのみラベルを印刷し、その後にスペース、関連する塩基対、および改行文字を印刷します。

fastaファイルからシーケンスを抽出する

ベストアンサー1

おすすめ記事