スペースで区切られたDNA配列があります。スペースを削除し、スペース文字なしでシーケンス数を返す必要があります。これを行う方法について助けていますか? bashで端末を使用しています。
たとえば、シーケンスは次のようになります。
GTCGATTGCAAGGATCCGCATGGGATAAAGGAATCGCAGTTCGAACAGGCAATGCCGCAG
CTATGATAGGACATCTCTTGGAGACACCTATTAATGTTTCAGAAACGGATACCTTGGTTG
TCCAGTACGAAATTAAGTTGGACAATTCTTTGACGTGCGGC
CTATATTAAAATTGTGGGTACATCACTCTCTTACCTGAGAATTCCAACAGAGCAGGACGC
TAACCCAGTGTCTATACCAGTCTGTGGCTTTGAAAGATTAGACACATTTCTGGATGAATT
TTCAAATTCTAAATTGATCGTTCAGTCTACACTAAGACATTCGTACGTTAGTCTTGAGAA
スペースを削除し、正確にいくつの塩基があるかどうかを計算したいと思います。あるいは、A、C、G、またはTが何個あるかを計算し、スペースを計算せずに追加することもできます。
ベストアンサー1
GNU awkを使用したマルチ文字RSとRT:
$ awk -v RS='[^\n]' 'RT{cnt[RT]++} END{for (base in cnt) print base, cnt[base]}' file
A 101
C 68
T 98
G 74
あなたの説明では、「基本」はあなたの例では改行文字ではなくすべての文字であると仮定します。