私は80のゲノムと5つの染色体を含む巨大なファイルを持っています。 1つの染色体(例:1)から線のみを選択し、SNP変異を示す位置のみを選択する簡単な方法があるかどうか疑問に思います。
1 180754 GGGGGGGCC
1 180755 CCCCCCCCC
1 180756 CCTCCCCTC
1 180757 AAAAAAAAA
1 180759 TTTTTTTTT
3 7874113 TTTTTTTTT
3 7874114 GGGGGGGGG
3 7874115 GGGGGGGGG
3 7874116 GGGGGGGGG
これが私が最終的に得たいものです:
1 180754 GGGGGGGC
1 180756 CCTCCCCT
ベストアンサー1
あなたの例:
egrep '1 [[:digit:]]+ (GGGGGGGC|CCTCCCCT)' file
---編集:したがって、以下を試してください。
egrep -v '([A-Z])\1{8}' data