私はLinuxに初めて触れました。次のFASTAファイルがあります。
>scaffold1
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATGTATTTTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTAACAAATAAAATTAATGCAATTTATTTTTTCAAATAAAAATACACGGAGAAAAATAATTTGTAAATTTT
など。約5,000を超える足場があります。
足場の長さを使ってヒストグラムを作りたいです。
Biopythonなどについて読みましたが、これらのプログラムのインストールについては何も知りません。 Linuxコマンド(ターミナル)のみを使用するか、Rを使用してヒストグラムを取得する方法はありますか?ありがとう
ベストアンサー1
適切なヒストグラムグラフィックツールを使用する方が賢明です。ただし、足場をいくつかの長さ表現に置き換えるには、次のawkコマンドを試すことができます。
$ awk '{if (NR%2){printf $0" "}else{print}}' file1.txt | awk '{gsub(".", "-", $2); print( $1, $2)}'
>scaffold1 -----------------------------------------------------------
>scaffold2 --------------------------------------------
>scaffold3 ---------------------------------------
>scaffold4 ------------------------------------------------------------------
テストファイルは次のとおりです。
$ cat file1.txt
>scaffold1
TTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTATGTAAATTTT
>scaffold3
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATG
>scaffold4
TTATCCCTTAATATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT