wgetを使用して最初の深さの外部リンクのみをダウンロードする

2024-06-28 • tag-icon

このページのコピーを受け取りたいです。http://databyte.ch/services/tony/index.html明らかに、このページはすでにソースソースのコピーです。http://www.tonyvanroon.com/oldwebsite/circ/ Circuits.htm

しかし、いくつかのリンクが壊れています。これでインデックスページのコピーを作成し、すべてのリンクがバックアーカイブを指すように修正しました。これでほぼすべてを探索できます。しかし、今wgetを使用して変更されたページをコピーしたいと思います。これで問題は、wgetが-Hパラメータのために外部リンクをたどると、外部ページにリンクされているファイルもダウンロードすることです。

例: このページでは:https://web.archive.org/web/20130318175317if_/http://www.sentex.ca/~mec1995/circ/alt1.htm

リンクがあります： https://web.archive.org/web/20130401212207if_/http://www.sentex.ca/~mec1995/circ/ Circuits.htm

タイムスタンプが異なります：20130318175317if_対20130401212207if_

今、車輪が回り始めました。 2番目のインデックスページには、他のタイムスタンプなどへのリンクがたくさんあるためです。

だから私が達成したいのは、wgetが最初のレベルにのみダウンロードされるということです。

databyte.ch - >すべてのリンクが指すhttps://web.archive.org/web/20130318175317if_

そしてそれ以上ではありません...

どうすればいいですか？ありがとうございます！

ベストアンサー1

wgetで深さパラメータを使用できます。

  -l depth
  --level=depth
      Specify recursion maximum depth level depth.

wget -r -l 1 -k -p -H --domains=web.archive.org http://databyte.ch/services/tony/index.html

ここで、-rは再帰モードを設定し、-kはリンクを変換し、-pは必須コンポーネントをダウンロードし、-Hはホストを拡張します。 --domains を指定すると、これらのホストにのみ適用されます。

ベストアンサー1

おすすめ記事