C# 正規表現を使用して HTML タグを削除する 質問する

C# 正規表現を使用して HTML タグを削除する 質問する

C# 正規表現を使用して、山括弧を含むすべての HTML タグを置換/削除するにはどうすればよいですか? 誰かコードについて手伝ってくれませんか?

ベストアンサー1

以前にも何度も述べましたが、XML または HTML ドキュメントの処理に正規表現を使用しないでください。ネストされた構造を一般的な方法で表現する方法がないため、正規表現は HTML および XML ドキュメントではあまりうまく機能しません。

次のようなものを使用できます。

String result = Regex.Replace(htmlDocument, @"<[^>]*>", String.Empty);

これはほとんどの場合に機能しますが、期待どおりに機能しないケース(山括弧を含む CDATA など)もあります。

おすすめ記事