パターンの重複するインスタンスのリスト

Question

私の考えでは問題は正規表現は一致する文字を使用します。。正規表現エンジンが長さゼロのアサーションをサポートしている場合は、この問題をある程度解決できます。

たとえば、必要に応じて計算発生した場合は、単一文字とそれに続く構成で構成されたPCREを使用できます。視野gtたとえば、GNU grepとそのPCREモードでは（21 - 1）文字で構成されています。

$ printf 'aaaatccataaatcgaggattacaagtggaaaacaaggaggcagt' | 
grep -Po '.(?=.{20}gt)'
t
c

一致する各部分文字列の最初の文字を出力して、単一の文字を除くすべての文字が重なり合うようにします。（結果をwc -l実際の数にパイプできます）。

実際に一致する文字列を回復する必要がある場合は、文字を消費して消費しないでください。これは明らかに困難です。おそらく一致を返すことでこれを行う方法があります。索引次に、Perlのように部分文字列の一致を実行します（悪いことがあります）。

$ printf 'aaaatccataaatcgaggattacaagtggaaaacaaggaggcagt' | 
perl -lne 'while ($_ =~ m/.(?=.{20}gt)/g) {print substr($_,@+[0]-1,23)}'
tccataaatcgaggattacaagt
caagtggaaaacaaggaggcagt

Answer 1

私の考えでは問題は正規表現は一致する文字を使用します。。正規表現エンジンが長さゼロのアサーションをサポートしている場合は、この問題をある程度解決できます。

たとえば、必要に応じて計算発生した場合は、単一文字とそれに続く構成で構成されたPCREを使用できます。視野gtたとえば、GNU grepとそのPCREモードでは（21 - 1）文字で構成されています。

$ printf 'aaaatccataaatcgaggattacaagtggaaaacaaggaggcagt' | 
grep -Po '.(?=.{20}gt)'
t
c

一致する各部分文字列の最初の文字を出力して、単一の文字を除くすべての文字が重なり合うようにします。（結果をwc -l実際の数にパイプできます）。

実際に一致する文字列を回復する必要がある場合は、文字を消費して消費しないでください。これは明らかに困難です。おそらく一致を返すことでこれを行う方法があります。索引次に、Perlのように部分文字列の一致を実行します（悪いことがあります）。

$ printf 'aaaatccataaatcgaggattacaagtggaaaacaaggaggcagt' | 
perl -lne 'while ($_ =~ m/.(?=.{20}gt)/g) {print substr($_,@+[0]-1,23)}'
tccataaatcgaggattacaagt
caagtggaaaacaaggaggcagt

パターンの重複するインスタンスのリスト

ベストアンサー1

おすすめ記事