重複する括弧から識別子と対応する括弧を抽出する

Question

次のように見えます。

<file1 perl -lne '
  for (m{(\((?:[^()]++|(?1))*\))(?(?{($1 =~ s/[^ABE]//gr) !~ /^(.)\1+$/})(*FAIL))}g) {
    ($cluster) = /([ABE])/;
    open($out{$cluster}, ">", "cluster $cluster.txt") unless $out{$cluster};
    print {$out{$cluster}} $_;
  }'

Perlの高度な正規表現演算子のいくつかがここで使用されます。

(?1)(...)再帰的一致に使用されるため、ゼロ個以上のs以外のシーケンスを含むペア、または次のものを()含む(...)他のペアと一致すると言えます。
(?:...)キャプチャしていないバージョンです(...)。グループ化専用です。
+++（1つ以上ですが、逆追跡ではありません）の非逆追跡バージョンです。
(?(?{code})pattern)pattern成功すると、正規表現が動的に挿入されますcode。ここに(*FAIL)aka(*F)またはを挿入して、(?!)最初のキャプチャグループに一致する ABE 文字が 2 つ以上の同じ文字のシーケンスでない場合、今回は一致するものがないことを正規表現エンジンに通知します。

perldoc perlre詳細より。

次に、これらの一致から文字を抽出し、一致を対応する出力ファイルに書き込みます。

慣れていない人のためにperl：

perl -lnは input の各行に対してsedコード（ここに渡される）を実行するパターンです。ここではのパターン空間と同じです。-e$_sed
m{regex}gはい、代替構文です/regex/g。リストコンテキストでは、すべてのキャプチャグループと一致するアイテムを別の要素（存在する場合）として返し、そうでない場合はすべての一致を返します（キャプチャグループが1つだけあり、一致するもの全体が含まれるため、これに違いはありません）。$_テーマが指定されていない場合（使用subject =~ m{...}g）適用されます。
for (list) {code}for $var (list) {code}リスト内の要素を繰り返すが変数が指定されていないため、デフォルト値はです$_。
/(ABE)/リストの内容と同じですm{(ABE)}（ここではリストの割り当てです）。ただしg、ここではキャプチャグループの一致（文字A、B、またはEの最初の出現）が返されます。キャプチャリンググループがない場合は、ブール値のみを返します。
$1 =~ s/[^ABE]//grs置換（gグローバル）を適用してr結果を返します。したがって、ABE 文字を除くすべての項目が削除されたキャプチャグループのコンテンツが返されます。

xスペースとコメントを挿入してキャプチャグループ名を指定するフラグを使用すると、より明確にすることができます。

<file1 perl -lne '
  for (
    m{
      (?<paren> [(] (?: [^()] ++ | (?&paren) ) * [)])
      (?(?{ ($+{paren} =~ s/[^ABE]//gr) !~ /^(.)\1+$/ })(*FAIL))
    }xg
  ) {
    ($cluster) = /([ABE])/;
    open($out{$cluster}, ">", "cluster $cluster.txt") unless $out{$cluster};
    print {$out{$cluster}} $_;
  }'

Answer 1

次のように見えます。

<file1 perl -lne '
  for (m{(\((?:[^()]++|(?1))*\))(?(?{($1 =~ s/[^ABE]//gr) !~ /^(.)\1+$/})(*FAIL))}g) {
    ($cluster) = /([ABE])/;
    open($out{$cluster}, ">", "cluster $cluster.txt") unless $out{$cluster};
    print {$out{$cluster}} $_;
  }'

Perlの高度な正規表現演算子のいくつかがここで使用されます。

(?1)(...)再帰的一致に使用されるため、ゼロ個以上のs以外のシーケンスを含むペア、または次のものを()含む(...)他のペアと一致すると言えます。
(?:...)キャプチャしていないバージョンです(...)。グループ化専用です。
+++（1つ以上ですが、逆追跡ではありません）の非逆追跡バージョンです。
(?(?{code})pattern)pattern成功すると、正規表現が動的に挿入されますcode。ここに(*FAIL)aka(*F)またはを挿入して、(?!)最初のキャプチャグループに一致する ABE 文字が 2 つ以上の同じ文字のシーケンスでない場合、今回は一致するものがないことを正規表現エンジンに通知します。

perldoc perlre詳細より。

次に、これらの一致から文字を抽出し、一致を対応する出力ファイルに書き込みます。

慣れていない人のためにperl：

perl -lnは input の各行に対してsedコード（ここに渡される）を実行するパターンです。ここではのパターン空間と同じです。-e$_sed
m{regex}gはい、代替構文です/regex/g。リストコンテキストでは、すべてのキャプチャグループと一致するアイテムを別の要素（存在する場合）として返し、そうでない場合はすべての一致を返します（キャプチャグループが1つだけあり、一致するもの全体が含まれるため、これに違いはありません）。$_テーマが指定されていない場合（使用subject =~ m{...}g）適用されます。
for (list) {code}for $var (list) {code}リスト内の要素を繰り返すが変数が指定されていないため、デフォルト値はです$_。
/(ABE)/リストの内容と同じですm{(ABE)}（ここではリストの割り当てです）。ただしg、ここではキャプチャグループの一致（文字A、B、またはEの最初の出現）が返されます。キャプチャリンググループがない場合は、ブール値のみを返します。
$1 =~ s/[^ABE]//grs置換（gグローバル）を適用してr結果を返します。したがって、ABE 文字を除くすべての項目が削除されたキャプチャグループのコンテンツが返されます。

xスペースとコメントを挿入してキャプチャグループ名を指定するフラグを使用すると、より明確にすることができます。

<file1 perl -lne '
  for (
    m{
      (?<paren> [(] (?: [^()] ++ | (?&paren) ) * [)])
      (?(?{ ($+{paren} =~ s/[^ABE]//gr) !~ /^(.)\1+$/ })(*FAIL))
    }xg
  ) {
    ($cluster) = /([ABE])/;
    open($out{$cluster}, ">", "cluster $cluster.txt") unless $out{$cluster};
    print {$out{$cluster}} $_;
  }'

重複する括弧から識別子と対応する括弧を抽出する

ベストアンサー1

おすすめ記事