Why it's not possible to use regex to parse HTML/XML: a formal explanation in layman's terms Ask Question

Question

Concentrate on this one:

A finite automaton (which is the data structure underlying a regular expression) does not have memory apart from the state it's in, and if you have arbitrarily deep nesting, you need an arbitrarily large automaton, which collides with the notion of a finite automaton.

The definition正規表現のテストは、文字列がパターンに一致するかどうかのテストが有限オートマトン (パターンごとに 1 つの異なるオートマトン) によって実行できるという事実に相当します。有限オートマトンにはメモリがありません。スタックもヒープも、書き込み用の無限のテープもありません。有限の数の内部状態だけがあり、各内部状態はテスト対象の文字列から入力の単位を読み取り、それを使用して次にどの状態に移行するかを決定します。特別なケースとして、2 つの終了状態があります。「はい、一致しました」と「いいえ、一致しませんでした」です。

一方、HTML には、任意の深さにネストできる構造があります。ファイルが有効な HTML かどうかを判断するには、すべての終了タグが前の開始タグと一致していることを確認する必要があります。それを理解するには、どの要素が閉じられているかを知る必要があります。これまでに見た開始タグを「記憶する」手段がなければ、チャンスはありません。

ただし、ほとんどの「正規表現」ライブラリは、実際には正規表現の厳密な定義以上のものを許可していることに注意してください。後方参照に一致できる場合、正規言語を超えています。したがって、HTML で正規表現ライブラリを使用すべきでない理由は、HTML が正規ではないという単純な事実よりも少し複雑です。

Answer 1

Concentrate on this one:

A finite automaton (which is the data structure underlying a regular expression) does not have memory apart from the state it's in, and if you have arbitrarily deep nesting, you need an arbitrarily large automaton, which collides with the notion of a finite automaton.

The definition正規表現のテストは、文字列がパターンに一致するかどうかのテストが有限オートマトン (パターンごとに 1 つの異なるオートマトン) によって実行できるという事実に相当します。有限オートマトンにはメモリがありません。スタックもヒープも、書き込み用の無限のテープもありません。有限の数の内部状態だけがあり、各内部状態はテスト対象の文字列から入力の単位を読み取り、それを使用して次にどの状態に移行するかを決定します。特別なケースとして、2 つの終了状態があります。「はい、一致しました」と「いいえ、一致しませんでした」です。

一方、HTML には、任意の深さにネストできる構造があります。ファイルが有効な HTML かどうかを判断するには、すべての終了タグが前の開始タグと一致していることを確認する必要があります。それを理解するには、どの要素が閉じられているかを知る必要があります。これまでに見た開始タグを「記憶する」手段がなければ、チャンスはありません。

ただし、ほとんどの「正規表現」ライブラリは、実際には正規表現の厳密な定義以上のものを許可していることに注意してください。後方参照に一致できる場合、正規言語を超えています。したがって、HTML で正規表現ライブラリを使用すべきでない理由は、HTML が正規ではないという単純な事実よりも少し複雑です。

Why it's not possible to use regex to parse HTML/XML: a formal explanation in layman's terms Ask Question

ベストアンサー1

おすすめ記事