html ページをテキスト ファイルに変換する bash コマンド 質問する

html ページをテキスト ファイルに変換する bash コマンド 質問する

HTML ページをテキスト ファイルに変換する方法を教えていただけますか。テキスト ファイルでは、Web ページから画像やリンクが削除されます。HTML からテキストへの変換ツールではなく、bash コマンドのみを使用したいです。例として、「コンピューター」の Google 検索結果の最初のページを変換したいとします。

ベストアンサー1

最も簡単な方法は、ダンプ(簡単に言えば、表示可能な HTML のテキスト バージョン)のようなものを使用することです。

リモートファイル:

lynx --dump www.google.com > file.txt
links -dump www.google.com

ローカルファイル:

lynx --dump ./1.html > file.txt
links -dump ./1.htm

文字セットをutf8に変換すると(見る):

lynx -dump -display_charset UTF-8 ./1.htm
links -dump -codepage UTF-8 ./1.htm

おすすめ記事