GNU grepにおける\<および\>正規表現記号の意味

Question

正規表現に関連する「単語」の正式で正確な定義を仮定しているように見えますが、意味は実際には実装によって異なります。

実際に引用した本の「正規表現命名法」、「味」の段落で

両方のプログラムが⌈\<···\>⌋をサポートしていても、自分が行うことに同意せず、それを単語と見なすことはできません。

_{この概念の可変性を示す例として、Wikipediaの正規表現ページ[:word:][:word:]アンダースコアを含むがシンボルに関連付けられた脚注を含むように非標準の文字クラスを定義します。Emacs Lisp マニュアルここで、文字クラスは「単語構文を持つすべての文字」と一致すると言われ、さらに連結されます。構文クラス表それいいえ「単語コンポーネント」にアンダースコアを表示します（「シンボルコンポーネント」にリストされています - 「変数とコマンド名と単語コンポーネントに使用される追加の文字」として定義されています）。}

この観点から見ると、上記の記述は明らかに不正確です。

「単語の始まり」は、単に一連の英数字が始まる場所です。

定義ではなく単純化と見なすことができます。

「単語の先頭に一致」や「単語の先頭に位置一致」などの表現もあまり形式的には聞こえない。空の文字列を含むバージョンはあまり明確ではありませんが、より正確です。正式に定義された概念¹。

ほとんど、

'\<' は
単語の先頭の空の文字列と一致します。

\<文字列に単語形成文字（GNU grep定義による[:alnum:]文字クラスの1つまたはa _）が含まれていて、単語形成文字の直前にない場合にのみ文字列が一致することを示します。

その後、例のパターンは、\<([a-z]+) +\1\>「1つ以上の小文字のアルファベット文字シーケンス（ロケールの「a」と「z」の間にソートされています）」で読み取ることができます。その前に小文字のアルファベット文字が続き、最後の文字の後に単語を作成する文字はありません。

¹ _{正規表現コンテキストで長さ0の文字列。正しいかもしれません、本当にすべて行には、空行を含む対応する項目が含まれます。 ~になる接続操作のID要素、リテラル文字の前後に一致することができます。たとえば、X*で一致するもの、で一致する空のパターンgrep 'oX*o' <<<foo、で一致するもの、 ; で一致するものです。''grep '' <<<''echo "" | grep '^$'\<grep '\<' <<<'a'}

Answer 1