どこかからコンテンツをダウンロード wgetを使う

どこかからコンテンツをダウンロード wgetを使う

特定のImageBamギャラリーからすべての画像をダウンロードしようとしています。私はこれを試みます:

wget -P pics -H -nd -r -A '.jpg,.jpeg,.png,.gif,' -erobots=off http://www.imagebam.com/gallery/hwtfu6m7es3gun1emmpy2uheohrcckmt/

しかし、ウェブサイト全体をダウンロードしてください。必要なのは、<div>サムネイルとオリジナルの画像が含まれているだけです。<div>ウェブサイト全体の代わりにウェブサイトのコンテンツをダウンロードするスクリプトを作成することは可能ですか?

ベストアンサー1

この問題は、全体の図が親ツリーの下にないために困難です。したがって、これらのルートをサイトの他のルートと区別することは困難です。また、フルイメージへのリンクは、実際にはフル解像度イメージを含むページへのリンクです。よりエレガントなソリューションがあるかもしれませんが、これにはこれを行う方法があります。

#!/bin/bash
wget -np http://www.imagebam.com/gallery/hwtfu6m7es3gun1emmpy2uheohrcckmt/
grep HTML-Code index.html > html_code
grep -E -o 'http://thumbnails[^"]+' html_code > thumb_urls
grep -E -o 'http://www[^"]+' html_code > image_pages
wget -i thumb_urls
wget -P image_pages_dir -i image_pages
for file in image_pages_dir/*
do
    echo $file
    grep -m 1 -o -E 'http://.*jpg' $file >> full_image_urls
done
wget -i full_image_urls

おすすめ記事