足場IDとシーケンスを尊重し、足場があるfastaファイルを同じ長さのファイルに分割します。

Question

以下のコードは役に立ちますが、コンピュータの仕様によっては、大容量ファイルの場合は速度が遅くなることがあります。

まず、あなたが得なければならない総数ですUnique Identifier。これを使用してこれを達成できます。grep -c

total=$(grep -c "^>" largeFastaFile.txt)

上記のコードは、totalで始まる一致する行の数を変数に割り当てます>。これでUnique Identifier、各ファイルの番号を取得する必要があります。だから欲しいなら10ファイル。あなたは分割する必要がありますtotal/10：

max=$((total/10))
#If total has 3714529 then max will have 371,452.

最後に、awk次のコマンドを使用して大容量ファイルを10個のファイルに分割できます（実際に11）について371,452個の固有識別子各ファイル：

awk -v maxline=$max -v count=0\ 
 '{if(NR>1) { if( (NR-2)%maxline == 0 ) count++ ; print ">"$0 >("file"count".fasta")  } }'\
 RS='>' largeFastaFile.txt

スクリプトは次のようにする必要があります。

#!/bin/bash

total=$(grep -c "^>" largeFastaFile.txt)
max=$((total/10)) # where 10 is the number of files you will get

awk -v maxline=$max -v count=0 '{if(NR>1) { if( (NR-2)%maxline == 0 ) count++ ; print ">"$0 >("file"count".fasta")  } }' RS='>' largeFastaFile.txt

実際には合計371452910個のファイルがあり、371,452 Unique Identifier各ファイルの数が等しい場合は、他のファイルに複数の行が必要であるため、実際には11個のファイルが得られます。

371,452 * 10 = 3,714,520

だから番号11ファイルは最後です9 一意の識別子

Answer 1