特定の数のファスタ配列を切断してORFを生成する方法

特定の数のファスタ配列を切断してORFを生成する方法

次のファイルがあります。

 CDS             join(36..56,37..67)
 CDS             36..183
 CDS             457..565
 CDS             join(505..519,521..596)
 CDS             join(577..591,725..770)
 CDS             join(516..591,725..899)
 CDS             508..556
 CDS             571..841
 CDS             complement(619..788)
 CDS             843..863

ファイル内の特定の数のヌクレオチド範囲を印刷したいです(他のファイル「sequence.fasta」からシーケンスを読みます)。たとえば、Sequence.fasta ファイルは次のようになります。

>gi1234 HIVgenome|NC_909999.1
AACTGCGTGTGTGTCCACACAACACTGGGGGACACACAACAACAACACTGGGGGACACACTGGGACAACACTGGGGGACAGGACACTGTACAACACTGGGTGTGTCGGGACAGTACACATGTTGGGGGGGTGTGTCGGACAACACTGGGGGACATGTGTGTACAACACTGGGGGACAGTGACGACGACAACACTGGGGGACACGAGCGTTGTGAGCAGGTGACAACACTGGGGGACAGTGTTTTTACAACACTGGGGGACATTTTTGAGCAGCGACGCAGCGTTGTGGGGTGTGTCGGAAGGTGTGTCGTGTGTCGTGTGTC

出力pは次のようになります。

36  -  56   ACAACAACAACACTGGGGGAC 

37  -  67   CAACAACAACACTGGGGGACAACACTGGGAC

&まもなく...

~まで

843 - 863   GTGT....

シェルスクリプトでこれを行う最も簡単な方法は何ですか?

ベストアンサー1

この問題を解決するには、このフォーラムで提供するよりも多くのプログラミング努力が必要です(私はこの種のプログラミングを専門としています)。

これDDBJ/ENA/GenBank ファイル形式(質問の最初のファイル)は複雑で、CDS(ゲノム配列のコード部分)が単純または連結されているだけでなく、相補的であり、それらの組み合わせでもあります。また、位置座標には次のものがあります。修飾子一般的な解決策では、この問題を処理する必要があります。

地域の生物情報学者(またはプログラマー)に問い合わせるか、StackExchangeなどの生物情報学フォーラムに連絡する方が良いでしょう。生物情報学ウェブサイト。この種のタスクを実行するための既存のツールを教えたり、生物情報学者を知っていれば、より効率的である可能性のある奇妙なBioPerl / BioPythonスクリプトを提供します。

一つ可能パスを使用しています。GenBank特徴抽出器しかし、オンラインで使用することは、小規模なデータセット以外の場合は最善の選択ではないかもしれません。

おすすめ記事