文字列からHTMLタグを削除する 質問する

文字列からHTMLタグを削除する 質問する

Java文字列からHTMLを削除する良い方法はありますか?次のような単純な正規表現

replaceAll("\\<.*?>", "") 

は機能しますが、 などの一部のものは&amp;正しく変換されず、2 つの山括弧の間の HTML 以外の部分は削除されます (つまり、.*?正規表現内の は消えます)。

ベストアンサー1

正規表現の代わりにHTMLパーサーを使用します。これは非常に簡単です。ジェイスープ

public static String html2text(String html) {
    return Jsoup.parse(html).text();
}

Jsoupもサポート<b>カスタマイズ可能なホワイトリストに対して HTML タグを削除します。これは、、、<i>などのみを許可する場合に非常に便利です<u>

参照:

おすすめ記事