Wgetを使用して外部ファイルをダウンロードする方法

Wgetを使用して外部ファイルをダウンロードする方法

Webサイトをミラーリングし、SharePoint PDFを指す外部ファイルを含めようとしています。

また、wgetはサブドメインを自動的にダウンロードします。たとえば、stackexchange.comをダウンロードしたい場合は、xxxx.stackexchange.comをすべてダウンロードしますか?

ベストアンサー1

wgetのマンページから:

WgetはHTML、XHTML、およびCSSページのリンクをたどり、リモートWebサイトのローカルバージョンを作成できます。元のサイトのディレクトリ構造を完全に再作成します。。これは「再帰的ダウンロード」とも呼ばれます。このプロセスでは、Wgetはロボット除外基準(/ robots.txt)に準拠しています。ダウンロードしたファイルのリンクをオフライン表示用にローカルファイルを指すように変換するようにWgetに指示できます。

そのため、サブドメインがドメインのサブディレクトリにファイルを配置したり、ドメインのページがサブドメインにリンクしたりすると、ほとんどすべてをダウンロードする可能性が高くなります。

ほぼなぜなら、ウェブサイトが正しく維持されていると、robots.txtによって一部のファイルにアクセスできなくなるからです。

さて、私は個人的に続行するために許可を要求し、SFTPアクセスを利用したいと思います。

もちろん、Webサイトのページは、一部のサーバーデータベース内のすべてのデータを使用して、一部のサーバースクリプトによって動的に生成される可能性が高いことを認識しています。これらのコンテンツはすべてダウンロードされません。

今、これが起こる可能性が非常に高いので、実際に正式に期待することはできません。ミラーリングそれがウェブサイトです。

おすすめ記事