wgetを使用して再帰的にダウンロード

wgetを使用して再帰的にダウンロード

次のwgetコマンドの使用に問題があります。

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

元のネットワークに接続されているすべての文書を再帰的にダウンロードする必要がありますが、2つのファイル(index.htmlおよびrobots.txt)のみをダウンロードしてください。

再帰ダウンロードを実装する方法これネットワーク?

ベストアンサー1

wget基本的に尊重robots.txt 標準検索エンジンのようにページをクロールします。 archive.orgの場合は、/web/サブディレクトリ全体を無効にします。オーバーライドするには-e robots=off

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

おすすめ記事