特定のローカルページにリンクされているすべてのページをダウンロードする

特定のローカルページにリンクされているすべてのページをダウンロードする

私のものをダウンロードしたいUnixおよびLinuxユーザーアクティビティページwgetアクティビティリストにリンクされているすべてのページ。

頑張った

wget -m -l 2 

サイトを再帰的にミラーリングする必要がありますが、最大レベルまでしかミラーリングできませんが、これは良いソリューションではありません。特にスタイルシートが正しくダウンロードされていません。

必要なすべてのCSSと画像をダウンロードし、これらの問題間のリンクをローカルでそのまま維持するソリューションはありますか?完璧な解決策は、これらのダウンロードの問題に対するコメントなど、すべてが破損していないことを示すことです。

関連:

ベストアンサー1

このようなものはhttrackあなたが望むことをするでしょう。

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* -r2

これは、ページのページ付けの最初のページを過ぎても継続しません。そうなるように修正することもできます。ページ付きのページを繰り返すこともできます。

上記は2つのレベル(-r2)をダウンロードし、パスを含まないすべてのページを無視します*question*

このアプローチに関する意見

この種のダウンロードでは、ページをローカルに保持するために必要なすべてがあることを確認するために、より複雑なコマンドを数回実行する必要があります。しかし、心配しないでください。httrack同じディレクトリで引き続き実行でき、個々の部分をダウンロードしたことを検出し、スキップするか、適切な場合は更新します。

メモ:-*これは、すべてを明示的に除外し、オプションでコンテンツを再追加するために使用したアプローチの副産物です+...。いつでもインターネットを広く広げてhttrackよりダウンロードするように言うことができます。

繰り返しダウンロード

たとえば、ここではドラッグしたい他のファイルを識別するときに複数回実行します。

#1 実行
$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:01:35 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!
ラン#2
$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* +*googleapis* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:03:05 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* +*googleapis* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!

httrack上記では、Stack ExchangeがGoogleAPIを使用していることがわかりました。したがって、そのサイトからファイルをダウンロードする方法もわかるように、それをフィルタチェーンに追加する必要があります。

私は通常grepファイルを見て、すべてがあるかどうかを確認するか、Webブラウザの「ソースビュー」機能を使用して、ローカルシステム以外のサイトからのURLを確認します。

メモ:Chromeを使用して、Chromeからダウンロードした結果を開き、file:///path/to/httrack/download/index.htmlコンテンツを閲覧できます。

引用する

おすすめ記事