特定のローカルページにリンクされているすべてのページをダウンロードする

Question

このようなものはhttrackあなたが望むことをするでしょう。

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* -r2

これは、ページのページ付けの最初のページを過ぎても継続しません。そうなるように修正することもできます。ページ付きのページを繰り返すこともできます。

上記は2つのレベル（-r2）をダウンロードし、パスを含まないすべてのページを無視します*question*。

このアプローチに関する意見

この種のダウンロードでは、ページをローカルに保持するために必要なすべてがあることを確認するために、より複雑なコマンドを数回実行する必要があります。しかし、心配しないでください。httrack同じディレクトリで引き続き実行でき、個々の部分をダウンロードしたことを検出し、スキップするか、適切な場合は更新します。

メモ:-*これは、すべてを明示的に除外し、オプションでコンテンツを再追加するために使用したアプローチの副産物です+...。いつでもインターネットを広く広げてhttrackよりダウンロードするように言うことができます。

繰り返しダウンロード

たとえば、ここではドラッグしたい他のファイルを識別するときに複数回実行します。

#1 実行

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:01:35 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!

ラン＃2

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* +*googleapis* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:03:05 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* +*googleapis* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!

httrack上記では、Stack ExchangeがGoogleAPIを使用していることがわかりました。したがって、そのサイトからファイルをダウンロードする方法もわかるように、それをフィルタチェーンに追加する必要があります。

私は通常grepファイルを見て、すべてがあるかどうかを確認するか、Webブラウザの「ソースビュー」機能を使用して、ローカルシステム以外のサイトからのURLを確認します。

メモ:Chromeを使用して、Chromeからダウンロードした結果を開き、file:///path/to/httrack/download/index.htmlコンテンツを閲覧できます。

引用する

Httrackユーザーガイド

Answer 1

このようなものはhttrackあなたが望むことをするでしょう。

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* -r2

これは、ページのページ付けの最初のページを過ぎても継続しません。そうなるように修正することもできます。ページ付きのページを繰り返すこともできます。

上記は2つのレベル（-r2）をダウンロードし、パスを含まないすべてのページを無視します*question*。

このアプローチに関する意見

この種のダウンロードでは、ページをローカルに保持するために必要なすべてがあることを確認するために、より複雑なコマンドを数回実行する必要があります。しかし、心配しないでください。httrack同じディレクトリで引き続き実行でき、個々の部分をダウンロードしたことを検出し、スキップするか、適切な場合は更新します。

メモ:-*これは、すべてを明示的に除外し、オプションでコンテンツを再追加するために使用したアプローチの副産物です+...。いつでもインターネットを広く広げてhttrackよりダウンロードするように言うことができます。

繰り返しダウンロード

たとえば、ここではドラッグしたい他のファイルを識別するときに複数回実行します。

#1 実行

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:01:35 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!

ラン＃2

$ httrack \
    'http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all' \
    -* +*question* +*sstatic.net* +*googleapis* -r2 

There is an index.html and a hts-cache folder in the directory 
A site may have been mirrored here, that could mean that you want to update it
Be sure parameters are ok

Press <Y><Enter> to confirm, <N><Enter> to abort
Y
Mirror launched on Fri, 07 Nov 2014 14:03:05 by HTTrack Website Copier/3.48-19 [XR&CO'2014]
mirroring http://unix.stackexchange.com/users/20661/rubo77?tab=activity&sort=all -* +*question* +*sstatic.net* +*googleapis* with the wizard help..
Done.: unix.stackexchange.com/questions/163334/connecting-to-irc-and-log-all-conversations (62646 bytes) - OK
Thanks for using HTTrack!

httrack上記では、Stack ExchangeがGoogleAPIを使用していることがわかりました。したがって、そのサイトからファイルをダウンロードする方法もわかるように、それをフィルタチェーンに追加する必要があります。

私は通常grepファイルを見て、すべてがあるかどうかを確認するか、Webブラウザの「ソースビュー」機能を使用して、ローカルシステム以外のサイトからのURLを確認します。

メモ:Chromeを使用して、Chromeからダウンロードした結果を開き、file:///path/to/httrack/download/index.htmlコンテンツを閲覧できます。

引用する

Httrackユーザーガイド

特定のローカルページにリンクされているすべてのページをダウンロードする

ベストアンサー1

このアプローチに関する意見

繰り返しダウンロード

引用する

おすすめ記事