タンブラーの前のページから画像をダウンロードしたいです。
例えばhttp://landscapes.tumblr.com/page/7
このページをブラウザ(FirefoxとChromeを使ってみました)からロードすると正確に15個の画像がありますが、wgetを使ってダウンロードしようとすると60個の画像が表示されます(7-11ページに相当)。私がダウンロードするために使用したコマンドは
wget -H -k -p -R "*avatar*" -A '.jpeg,.jpg,.bmp,.gif,.png' -np -nd -N -erobots=off -i http://landscapes.tumblr.com/page/7
wgetが引数として提供されたものよりも多くのページをダウンロードする理由と、1ページだけをダウンロードする方法を説明できますか?よろしくお願いします。
ベストアンサー1
~からwget マニュアル:
-i file
--input-file=file
ローカルまたは外部からURLを読む文書。
[...]
-p
--page-requisites
このオプションを使用すると、Wgetは指定されたHTMLページを正しく表示するために必要なすべてのファイルをダウンロードします。これには、インライン画像、サウンド、参照スタイルシートなどが含まれます。
コマンドには両方が含まれているため、元のページ、そのページに関連付けられているすべての項目(すべての後続ページを含む)、および各ページに必要なすべての項目を検索します。
これを削除したら、-i
元のページから必要なコンテンツのみを取得します。