次のファイルがあります。
CDS join(36..56,37..67)
CDS 36..183
CDS 457..565
CDS join(505..519,521..596)
CDS join(577..591,725..770)
CDS join(516..591,725..899)
CDS 508..556
CDS 571..841
CDS complement(619..788)
CDS 843..863
ファイル内の特定の数のヌクレオチド範囲を印刷したいです(他のファイル「sequence.fasta」からシーケンスを読みます)。たとえば、Sequence.fasta ファイルは次のようになります。
>gi1234 HIVgenome|NC_909999.1
AACTGCGTGTGTGTCCACACAACACTGGGGGACACACAACAACAACACTGGGGGACACACTGGGACAACACTGGGGGACAGGACACTGTACAACACTGGGTGTGTCGGGACAGTACACATGTTGGGGGGGTGTGTCGGACAACACTGGGGGACATGTGTGTACAACACTGGGGGACAGTGACGACGACAACACTGGGGGACACGAGCGTTGTGAGCAGGTGACAACACTGGGGGACAGTGTTTTTACAACACTGGGGGACATTTTTGAGCAGCGACGCAGCGTTGTGGGGTGTGTCGGAAGGTGTGTCGTGTGTCGTGTGTC
出力pは次のようになります。
36 - 56 ACAACAACAACACTGGGGGAC
37 - 67 CAACAACAACACTGGGGGACAACACTGGGAC
&まもなく...
~まで
843 - 863 GTGT....
シェルスクリプトでこれを行う最も簡単な方法は何ですか?
ベストアンサー1
この問題を解決するには、このフォーラムで提供するよりも多くのプログラミング努力が必要です(私はこの種のプログラミングを専門としています)。
これDDBJ/ENA/GenBank ファイル形式(質問の最初のファイル)は複雑で、CDS(ゲノム配列のコード部分)が単純または連結されているだけでなく、相補的であり、それらの組み合わせでもあります。また、位置座標には次のものがあります。修飾子一般的な解決策では、この問題を処理する必要があります。
地域の生物情報学者(またはプログラマー)に問い合わせるか、StackExchangeなどの生物情報学フォーラムに連絡する方が良いでしょう。生物情報学ウェブサイト。この種のタスクを実行するための既存のツールを教えたり、生物情報学者を知っていれば、より効率的である可能性のある奇妙なBioPerl / BioPythonスクリプトを提供します。
一つ可能パスを使用しています。GenBank特徴抽出器しかし、オンラインで使用することは、小規模なデータセット以外の場合は最善の選択ではないかもしれません。