FASTAファイルを使用したヒストグラム

FASTAファイルを使用したヒストグラム

私はLinuxに初めて触れました。次のFASTAファイルがあります。

>scaffold1
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATGTATTTTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTAACAAATAAAATTAATGCAATTTATTTTTTCAAATAAAAATACACGGAGAAAAATAATTTGTAAATTTT

など。約5,000を超える足場があります。

足場の長さを使ってヒストグラムを作りたいです。
Biopythonなどについて読みましたが、これらのプログラムのインストールについては何も知りません。 Linuxコマンド(ターミナル)のみを使用するか、Rを使用してヒストグラムを取得する方法はありますか?ありがとう

ベストアンサー1

適切なヒストグラムグラフィックツールを使用する方が賢明です。ただし、足場をいくつかの長さ表現に置き換えるには、次のawkコマンドを試すことができます。

$ awk '{if (NR%2){printf $0" "}else{print}}' file1.txt | awk '{gsub(".", "-", $2); print( $1, $2)}'
>scaffold1 -----------------------------------------------------------
>scaffold2 --------------------------------------------
>scaffold3 ---------------------------------------
>scaffold4 ------------------------------------------------------------------

テストファイルは次のとおりです。

$ cat file1.txt
>scaffold1
TTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTATGTAAATTTT
>scaffold3
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATG
>scaffold4
TTATCCCTTAATATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT

おすすめ記事