動的ページを取得するためにwgetを使用しようとしましたが、成功しませんでした。

動的ページを取得するためにwgetを使用しようとしましたが、成功しませんでした。

このコマンドを使用して、wgetを介してすべての画像とJavaScriptを含むiTunesページを取得します。私が望むのは、このページとページに含まれるすべての画像とスクリプトだけです。

 wget -kKErpNF --no-check-certificate --html-extension  -nd -A jpg,jpeg,png,js  -nH https://itunes.apple.com/us/app/megamilhoes-megasena-gerador/id854897303?mt=12

このコマンドはほとんど機能しますが、ページは動的でブラウザに組み込まれているため、ページ自体を保存しません。ページにhtml/html拡張子がありません。どうやって入手できますか?

--html-extension何の影響もありませんでした。私はOSX Mavericksを使用しています。

ベストアンサー1

Appleはデフォルトでhtmlファイルのダウンロードを拒否します。私のコンピュータに指定したコマンドを使用しました。出力を注意深く見ると、次のような結果が得られます。

Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50--  https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: `robots.txt'

したがって、これ我々は答えを無視することができますロボット.txt-e robots=offコマンドに使用してファイルを作成します。

Wget基本的に尊重robots.txt 標準検索エンジンと同様に、クロールページの場合、archive.orgの場合は/web/サブディレクトリ全体を許可しません。オーバーライドするには-e robots= off

そのため、これを追加するようにコマンドを変更し、-e robots= offコマンドを再実行したときに次のような出力が得られました。

Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: `id854897303?mt=12.html'

    [ <=>                                                                                                                                                  ] 33,456      --.-K/s   in 0.001s  

2014-05-24 10:48:38 (30.1 MB/s) - `id854897303?mt=12.html' saved [33456]

Removing id854897303?mt=12.html since it should be rejected.

ご覧のとおり、ファイルのダウンロードはAppleによってブロックされており、これについて私たちができることはありません。

編集する:なしで-e robots=offhtmlファイルをダウンロードできません。また、もともとwgetも拒否されたと言われています。だからAppleはwgetダウンロードを許可していないようです。

おすすめ記事