重複履歴の検索と削除[閉じる]

重複履歴の検索と削除[閉じる]

同じ文字が繰り返される重複レコードを探したいです。たとえば、探したいパターンが「AA」または「AAAAA」です。 grepコマンドを使用して検索します。しかし、ここでは正しく動作しません。 ATCTAGCGATCGATAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG TATCTATCTATCTCTACTACTTCGCATCGCTAGCTCGACTGCATAGACTAGAAAAAGCATCAGCTACCGCCTCAGCATCGACTACGATACG TAGAG ACTACGTACCGATAAGCACTACGTCAGCCTAGACTCACGACT GATCGATCGATCGACTACGCAGCTACGAGATCGATCGATCGATCGTAGCTAGCTCATACTACACGGCATATACGTGTCGATgctAGTAACTACAT ACGCTAGCTAGCTACGATCAATCGAGCTATCGATCAGCTACGATCTAGAGATC

ベストアンサー1

質問は少し不明です。同じ核酸で構成されたすべての部分文字列を複数回探したいと仮定すると、sedが役に立ちます。

sed -r 's:([ACGTacgt])\1+:\n>&\n:g;s:^[^>]+$::mg;s:\n+>?:\n:g' INPUT

出力:

TT
GG
AAAAA
CC
CC
CC
CC
AA
CC
AA
AA

特定の核酸については、[Aa]スクリプトの始めに使用してください。

おすすめ記事