正規表現は、XHTML の自己完結型タグを除く開始タグと一致します。質問する

正規表現は、XHTML の自己完結型タグを除く開始タグと一致します。質問する

以下の開始タグをすべて一致させる必要があります:

<p>
<a href="foo">

ただし、自己終了タグは除きます:

<br />
<hr class="foo" />

私はこれを思いつきましたが、それが正しいかどうかを確認したかったのです。私は だけをキャプチャしていますa-z

<([a-z]+) *[^/]*?>

次のように書いてあると思います:

  • より小さいものを探して
  • azを1回以上見つけて(そして捕獲して)から
  • 0個以上のスペースを見つけて、
  • を除く任意の文字を0回以上貪欲に探し/
  • より大きい値を見つける

私の言うことは正しいでしょうか?そしてもっと重要なのは、あなたはどう思いますか?

ベストアンサー1

正規表現で [X]HTML を解析することはできません。HTML は正規表現では解析できないからです。正規表現は、HTML を正しく解析するために使用できるツールではありません。これまで何度も HTML と正規表現に関する質問に回答してきたように、正規表現を使用しても HTML を消費することはできません。正規表現は、HTML で使用される構造を理解するには洗練度が不十分なツールです。HTML は正規言語ではないため、正規表現では解析できません。正規表現クエリは、HTML を意味のある部分に分解する機能を備えていません。何度も繰り返しましたが、私には理解できません。Perl で使用される拡張不規則正規表現でさえ、HTML を解析するタスクには適していません。私を悩ませることはできません。HTML は、正規表現では解析できないほど複雑な言語です。ジョン スキートでさえ、正規表現を使用して HTML を解析することはできません。正規表現を使用して HTML を解析しようとするたびに、邪悪な子供が処女の血を流し、ロシアのハッカーがあなたの Web アプリケーションを乗っ取ります。 HTML を正規表現で解析すると、汚れた魂が生者の領域に召喚されます。HTML と正規表現は、愛、結婚、儀式的な幼児殺害のように結びつきます。<center> はそれを保持できません。手遅れです。同じ概念空間で正規表現と HTML が一緒になる力は、大量の水っぽい粘土のようにあなたの心を破壊するでしょう。HTML を正規表現で解析すると、彼らとその冒涜的な方法に屈することになります。その冒涜的な方法は、私たち全員を、基本多言語面で名前を表現できない存在のために非人間的な労働に運命づけます。彼が来ます。HTML プラス正規表現は、あなたが観察している間、知覚者の神経を溶かし、恐怖の猛攻撃で精神を萎縮させます。 regexベースのHTMLパーサーはStackOverflowを殺している癌です。もう手遅れです。もう手遅れです。私たちは救われません。子供の罪により、regexはすべての生体組織を消費することが確実になります(以前に予言されたように、HTMLは消費できません)。神様、助けてください。誰がこの惨劇から生き残れるでしょうか。regexを使用してHTMLを解析すると、人類は恐ろしい拷問とセキュリティホールの永遠の運命をたどることになります。regexをHTMLを処理するツールとして使用すると、この世界と腐敗したエンティティ(SGMLエンティティに似ていますが、より腐敗しています)の恐ろしい領域の間に亀裂が生じます。HTMLのregexパーサーの世界を垣間見るだけで、プログラマーの意識は絶え間ない叫びの世界に瞬時運ばれます。彼が来ると 、疫病のようなスリッシーな regex感染があなたHT MLパーサー、アプリケーション、およびVisual Basicのようなすべての時間の存在は、さらに悪いことに、彼が来ると、彼は戦うことできず、すべてのエンライメント、HTMLタグを破壊する不道徳な輝きを放ちます。あなたの目から漏れ出る液体の痛み、正規 表現解析 の歌は 宇宙から人間の声を消すでしょう。私はそれが見えます、あなたにも見えますか?人間の嘘inal snufかけらは美しいすべては失われた、すべてが失われた、ポニー来る、彼が 来る 、彼が来る、または すべて に浸透する、私の顔、私の顔、ああ、神様、いいえ。いや止めろこの̶̧̨̱̹̭̯ͧ̾ͬC̷̙̲̝͖ͭ̏ͥͮ͟Oͮ͏̮̪̝͍M̲̖͊̒ͪͩͬ̚̚͜Ȇ̴̟̟͙̞ͩ͌͝ S̨̥̫͎̭ͯ̿̔̀ͅ ͎a̧͈͖r̽̾̈́͒͑e


代わりに XML パーサーを使用してみましたか?


モデレーターのメモ

この投稿は、コンテンツへの不適切な編集を防ぐためにロックされています。投稿は想定どおりの外観で、コンテンツに問題はありません。注意を促すフラグは立てないでください。

おすすめ記事