2文字のみで構成された行と1文字で始まり、特定の長さを満たす行の場合はgrep / awk / sed

Question

erl互換のgexpモジュールをgrep試してみてください：PCRE

2文字の組み合わせを削除する：

pcregrep -Mv '>.*\n([ACGT])\1*([ACGT])\2*(\1|\2)*$' file

出力：

>NB501013:9:HJJ75BGXX:4:21602:19346:16945/2
CTCGTCGCATCACAAAGGGAT
>NB501013:9:HJJ75BGXX:3:11407:17650:13229/2
CCGCGGGCCGGTGCGGGGGTTTTTTTGTTTTTTTGGTTACAACGGGTGGG
>NB501013:9:HJJ75BGXX:3:13509:1817:13239/2
CAGCCC
>NB501013:9:HJJ75BGXX:4:22611:20567:13384/2
GAATA

5文字以下の組み合わせを削除してください。

 pcregrep -Mv '>.*\n[ACGT]{1,5}$' file

出力：

>NB501013:9:HJJ75BGXX:4:13609:24076:18015/2
GGGGGGGAAAAAAA
>NB501013:9:HJJ75BGXX:4:21602:19346:16945/2
CTCGTCGCATCACAAAGGGAT
>NB501013:9:HJJ75BGXX:3:11407:17650:13229/2
CCGCGGGCCGGTGCGGGGGTTTTTTTGTTTTTTTGGTTACAACGGGTGGG
>NB501013:9:HJJ75BGXX:3:13509:1817:13239/2
CAGCCC

Answer 1

erl互換のgexpモジュールをgrep試してみてください：PCRE

2文字の組み合わせを削除する：

pcregrep -Mv '>.*\n([ACGT])\1*([ACGT])\2*(\1|\2)*$' file

出力：

>NB501013:9:HJJ75BGXX:4:21602:19346:16945/2
CTCGTCGCATCACAAAGGGAT
>NB501013:9:HJJ75BGXX:3:11407:17650:13229/2
CCGCGGGCCGGTGCGGGGGTTTTTTTGTTTTTTTGGTTACAACGGGTGGG
>NB501013:9:HJJ75BGXX:3:13509:1817:13239/2
CAGCCC
>NB501013:9:HJJ75BGXX:4:22611:20567:13384/2
GAATA

5文字以下の組み合わせを削除してください。

 pcregrep -Mv '>.*\n[ACGT]{1,5}$' file

出力：

>NB501013:9:HJJ75BGXX:4:13609:24076:18015/2
GGGGGGGAAAAAAA
>NB501013:9:HJJ75BGXX:4:21602:19346:16945/2
CTCGTCGCATCACAAAGGGAT
>NB501013:9:HJJ75BGXX:3:11407:17650:13229/2
CCGCGGGCCGGTGCGGGGGTTTTTTTGTTTTTTTGGTTACAACGGGTGGG
>NB501013:9:HJJ75BGXX:3:13509:1817:13239/2
CAGCCC

2文字のみで構成された行と1文字で始まり、特定の長さを満たす行の場合はgrep / awk / sed

ベストアンサー1

おすすめ記事