HTML ページをテキスト ファイルに変換する方法を教えていただけますか。テキスト ファイルでは、Web ページから画像やリンクが削除されます。HTML からテキストへの変換ツールではなく、bash コマンドのみを使用したいです。例として、「コンピューター」の Google 検索結果の最初のページを変換したいとします。
ベストアンサー1
最も簡単な方法は、ダンプ(簡単に言えば、表示可能な HTML のテキスト バージョン)のようなものを使用することです。
リモートファイル:
lynx --dump www.google.com > file.txt
links -dump www.google.com
ローカルファイル:
lynx --dump ./1.html > file.txt
links -dump ./1.htm
文字セットをutf8に変換すると(見る):
lynx -dump -display_charset UTF-8 ./1.htm
links -dump -codepage UTF-8 ./1.htm