与えられたファイルの特定の構造を解析する方法

与えられたファイルの特定の構造を解析する方法

.fastaファイル(ビッグデータ)を解析する必要があるか、特定の構造の.txtファイルを考えることもできます。この目的のために私はLinuxを使用したいと思います。ファイルを「一行ずつ」読みたいです。行とは、すべての行を意味するのではなく、特定のパターンに従ってテキストに繰り返し表示される特定の行を意味します。目を引くパターンはロゴです>。私が読みたい行は、その記号を含む行の間の行です。残念ながら、必須の行は2つの行を占めています。私はLinuxの経験はありません。だから助けが必要です。最終的な目標は、必要な行を新しいファイルにリダイレクトするか、単に読むことです。コード提案を送信していただきありがとうございます。テキストの数行は次のとおりです。

>ERR194147.15240306 HSQ1004:134:C0D8DACXX:1:1204:4727:27246/1
AGCCATTTTCCAGATGAGAAAGTCAAGGTTTGGAGAGAGATTCTGTGCCTTTGAGCAGGCTTGGGGGTCTGTAAGAAGCA
GGGCCACAGTTCAAACCTAG
>ERR194147.15950974 HSQ1004:134:C0D8DACXX:2:1307:21234:48802/1
ATGCATACTTCATGCACCCCAGCCCCCGTGGGCAGCTATTGGGTTTGCTATCTAATCTCTTTCTCCACCAGCTACCCTTC
TTTATCAACTTATATGTTTA

ベストアンサー1

このツールを使用して、パターンに一致する線をつかむことができますgrepman grep詳細については、次を参照してください。

grep -v '^>' source_file > output_file

正規表現(RE)を使用して>行の先頭()を一致させます。^この-vオプションは一致を反転し、一致しない行のみを出力します。最後に、> output_file出力を指定されたファイルに送信するための標準シェル構成です。

おすすめ記事