このページのコピーを受け取りたいです。http://databyte.ch/services/tony/index.html明らかに、このページはすでにソースソースのコピーです。http://www.tonyvanroon.com/oldwebsite/circ/ Circuits.htm
しかし、いくつかのリンクが壊れています。これでインデックスページのコピーを作成し、すべてのリンクがバックアーカイブを指すように修正しました。これでほぼすべてを探索できます。しかし、今wgetを使用して変更されたページをコピーしたいと思います。これで問題は、wgetが-Hパラメータのために外部リンクをたどると、外部ページにリンクされているファイルもダウンロードすることです。
例: このページでは:https://web.archive.org/web/20130318175317if_/http://www.sentex.ca/~mec1995/circ/alt1.htm
リンクがあります: https://web.archive.org/web/20130401212207if_/http://www.sentex.ca/~mec1995/circ/ Circuits.htm
タイムスタンプが異なります:20130318175317if_対20130401212207if_
今、車輪が回り始めました。 2番目のインデックスページには、他のタイムスタンプなどへのリンクがたくさんあるためです。
だから私が達成したいのは、wgetが最初のレベルにのみダウンロードされるということです。
databyte.ch - >すべてのリンクが指すhttps://web.archive.org/web/20130318175317if_
そしてそれ以上ではありません...
どうすればいいですか?ありがとうございます!
ベストアンサー1
wgetで深さパラメータを使用できます。
-l depth --level=depth Specify recursion maximum depth level depth.
wget -r -l 1 -k -p -H --domains=web.archive.org http://databyte.ch/services/tony/index.html
ここで、-rは再帰モードを設定し、-kはリンクを変換し、-pは必須コンポーネントをダウンロードし、-Hはホストを拡張します。 --domains を指定すると、これらのホストにのみ適用されます。