ファイルにはゲノムデータがあり、genomes-seq.txt
シーケンスタイトルは>
.で始まり、その後にゲノム名が続きます。
>genome.1
atcg
atcg
atcggtc
>genome.2
atct
tgcgtgctt
attttt
>genome.
sdkf
sdf;ksdf
sdlfkjdslc
edsfsfv
>genome.3
as;ldkhaskjd
asdkljdsl
asdkljasdk;l
>genome.4
ekjfhdhsa
dsfkjskajd
asdknasd
>genome.1
iruuwi
sdkljbh
sdfljnsdl
>genome.234
efijhusidh
siduhygfhuji
>genome.1
ljhdcj
sdljhsdil
fweusfhygc
次のファイルからゲノム1に関する同様のデータを収集したいと思います。
>genome.1
atcg
atcggtc
iruuwi
sdkljbh
sdfljnsdl
ljhdcj
sdljhsdil
fweusfhygc
ただし、sedを使用してこれを行うたびに、次のような結果が得られます。
>genome.1
atcg
atcg
atcggtc
>genome.1
iruuwi
sdkljbh
sdfljnsdl
>genome.1
ljhdcj
sdljhsdil
fweusfhygc
つまり、複数のgenome.1
sです。大規模なデータセットからすべての重複エントリを削除する必要がないように、このタスクを正しく実行するにはどうすればよいですか。
ベストアンサー1
$sed -nr /\>genome.1/,/^$/p file | sed '2,${/^>genome.1$/d}'
>genome.1
atcg
atcggtc
iruuwi
sdkljbh
sdfljnsdl
ljhdcj
sdljhsdil
fweusfhygc
Genome.1はキーワードなので、作成したいリストに応じて変更してください。