CHM / ...電子ブックを取得して生成するためにサブセット条件を使用する方法は?

CHM / ...電子ブックを取得して生成するためにサブセット条件を使用する方法は?

CHM / ...電子ブックを生成したい:サブセット条件付きwgettingを使用してデータサブセットを再帰的にダウンロードするウェブサイト.containerCHM本のHTMLクラスにあります。擬似コード

  1. wgetは章のすべてのリンクを再帰的に取得します。

    # TODO returns only index.html
    wget --random-wait -r -p -nd -e robots=off -A".html" \ 
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    
  2. 現在のホームページのコンテンツ.containerと図1のリンクされたサブページのコンテンツ。

  3. CHM電子ブックおよび/またはその他の形式の作成

図1 CDC Yellow Book Check.container

ここに画像の説明を入力してください。

出力:index.html

期待される出力:電子ブックCHMおよび/または他のフォーマット

Wgetの提案

  1. チーム

    wget -w5 --random-wait -r -nd -e robots=off -A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    出力:最初のコードと同じです。

  2. 拒否リストが添付されています。

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    出力:拒否リストがないのと同じです。

  3. 別の変形

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    出力:以前と似ています。

www.html2pdf.itツールは以下を提供します。

取得できませんhttp://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents:httpステータスコード404

オペレーティングシステム:Debian 8.7

ベストアンサー1

私はあなたの問題を発見しました。-A".html".のみ許可するように制限します.html。その部分を削除すると、すべてのファイルのダウンロードが開始されます。

wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents

編集する: js/css/etcファイルを除外するには、-Rincludeの代わりにフォーム拒否リストを使用することをお勧めしますhtml

おすすめ記事