file1
ヘッダー行を含むファイル()とfasta形式のシーケンスである他のファイル()がありますfile2
。file1
のヘッダ行がある場合、fastaシーケンスをgrepしたいと思いますfile2
。
例:
file1
:>sp|B7UM99|TIR_ECO27 >sp|P06616|ERA_ECOLI
file2
:>sp|B7UM99|TIR_ECO27 MPIGNLGNNVNGNHLIPPAPPLPSQTDGAA RGGTGHLISSTGALGSRSLFSPLRNSMADS VDSRDIPGLPTNPSRLAAATSETCLLGGFE VLHDKGPLDILNTQIGPSAFRVEVQADGTH ...... >sp|P06616|ERA_ECOLI MSIDKSYCGFIAIVGRPNVGKSTLLNKLL GQKISITSRKAQTTRHRIVGIHTEGAYQAIY VDTPGLHMEEKRAINRLMNKAASSSIGDVE LVIFVVEGTRWTPDDEMVLNKLREGKAPVI ............ >sp|P0AD68|HUMAN MKAAAKTQKPKRQEEHANFISWRFALLCGC ILLALAFLLGRVAWLQVISPDMLVKEGDMR SLRVQQVSTSRGMITDRSGRPLAVSVPVKA IWADPKEVHDAGGISVGDRWKALANALNIP .............
- 希望の出力
>sp|B7UM99|TIR_ECO27 MPIGNLGNNVNGNHLIPPAPPLPSQTDGAA RGGTGHLISSTGALGSRSLFSPLRNSMADS VDSRDIPGLPTNPSRLAAATSETCLLGGFE VLHDKGPLDILNTQIGPSAFRVEVQADGTH ...... >sp|P06616|ERA_ECOLI MSIDKSYCGFIAIVGRPNVGKSTLLNKLL GQKISITSRKAQTTRHRIVGIHTEGAYQAIY VDTPGLHMEEKRAINRLMNKAASSSIGDVE LVIFVVEGTRWTPDDEMVLNKLREGKAPVI ............
ベストアンサー1
Fastaファイルが与えられると、対応するシーケンス動作同じ長さ、
$ cat file.fa
>sp|B7UM99|TIR_ECO27
MPIGNLGNNVNGNHLIPPAPPLPSQTDGAA
RGGTGHLISSTGALGSRSLFSPLRNSMADS
VDSRDIPGLPTNPSRLAAATSETCLLGGFE
VLHDKGPLDILNTQIGPSAFRVEVQADGTH
......
>sp|P06616|ERA_ECOLI
MSIDKSYCGFIAIVGRPNVGKSTLLNKLLG
QKISITSRKAQTTRHRIVGIHTEGAYQAIY
VDTPGLHMEEKRAINRLMNKAASSSIGDVE
LVIFVVEGTRWTPDDEMVLNKLREGKAPVI
............
>sp|P0AD68|HUMAN
MKAAAKTQKPKRQEEHANFISWRFALLCGC
ILLALAFLLGRVAWLQVISPDMLVKEGDMR
SLRVQQVSTSRGMITDRSGRPLAVSVPVKA
IWADPKEVHDAGGISVGDRWKALANALNIP
.............
シーケンス名を含むクエリファイル、
$ cat query
sp|B7UM99|TIR_ECO27
sp|P06616|ERA_ECOLI
それからsamtools
次のように使用できます。
$ samtools faidx file.fa -r query
>sp|B7UM99|TIR_ECO27
MPIGNLGNNVNGNHLIPPAPPLPSQTDGAARGGTGHLISSTGALGSRSLFSPLRNSMADS
VDSRDIPGLPTNPSRLAAATSETCLLGGFEVLHDKGPLDILNTQIGPSAFRVEVQADGTH
......
>sp|P06616|ERA_ECOLI
MSIDKSYCGFIAIVGRPNVGKSTLLNKLLGQKISITSRKAQTTRHRIVGIHTEGAYQAIY
VDTPGLHMEEKRAINRLMNKAASSSIGDVELVIFVVEGTRWTPDDEMVLNKLREGKAPVI
............