CHM / ...電子ブックを生成したい:サブセット条件付きwgettingを使用してデータサブセットを再帰的にダウンロードするウェブサイト.container
CHM本のHTMLクラスにあります。擬似コード
wgetは章のすべてのリンクを再帰的に取得します。
# TODO returns only index.html wget --random-wait -r -p -nd -e robots=off -A".html" \ -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
現在のホームページのコンテンツ
.container
と図1のリンクされたサブページのコンテンツ。CHM電子ブックおよび/またはその他の形式の作成
図1 CDC Yellow Book Check.container
出力:index.html
期待される出力:電子ブックCHMおよび/または他のフォーマット
Wgetの提案
チーム
wget -w5 --random-wait -r -nd -e robots=off -A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
出力:最初のコードと同じです。
拒否リストが添付されています。
wget -w5 --random-wait -r -nd -e robots=off -A".html" \ -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
出力:拒否リストがないのと同じです。
別の変形
wget -w5 --random-wait -r -nd -e robots=off -A".html" \ -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
出力:以前と似ています。
www.html2pdf.itツールは以下を提供します。
取得できませんhttp://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents:httpステータスコード404
オペレーティングシステム:Debian 8.7
ベストアンサー1
私はあなたの問題を発見しました。-A".html"
.のみ許可するように制限します.html
。その部分を削除すると、すべてのファイルのダウンロードが開始されます。
wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents
編集する:
js/css/etcファイルを除外するには、-R
includeの代わりにフォーム拒否リストを使用することをお勧めしますhtml
。