カールしたページをテキストとして読み込む

カールしたページをテキストとして読み込む

curlページを別の名前で保存するオプションはありますか?テキスト

つまり、ブラウザにページを保存するのと同じです。テキストファイル。少なくともFirefoxにはこのオプションがあります。

スクリプトとして必要です。次の操作を行います。

curl -s http://... 

ただし、すべてのHTMLコードなしで操作をより簡単に処理できます。

lynx私が望むことを達成するオプションを見つけましlynx -dumpたが、使用したいと思いますcurl

ありがとうございます。

ベストアンサー1

あなたは考慮することができます読書は、タグ付き形式から別の形式にファイルを変換する強力なツールです。

curl -s URL | pandoc -f html -t plain

使い方は簡単です:

pandoc [OPTIONS] [FILES]
  -f FORMAT, -r FORMAT  --from=FORMAT, --read=FORMAT                    
  -t FORMAT, -w FORMAT  --to=FORMAT, --write=FORMAT                     
  -o FILE               --output=FILE                                   
                        --data-dir=DIRECTORY

移動できる形式を入力しpandoc --list-input-formatて確認します。pandoc --list-output-formats

おすすめ記事