アーカイブされたウェブサイトからすべてのリンク（ダウンロードを除く）を抽出して印刷します。

Question

ミラーサイトを使用することもできますがwget、何もダウンロードしないようにWebスパイダーとして機能するように指定することもできます。

したがって、これは可能ですが、ログを保存する必要があります。

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

私の場合、ログには次のようなものが見つかりました。

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

grepその後、URLを検索するために使用します。

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

例:

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Answer 1

ミラーサイトを使用することもできますがwget、何もダウンロードしないようにWebスパイダーとして機能するように指定することもできます。

したがって、これは可能ですが、ログを保存する必要があります。

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

私の場合、ログには次のようなものが見つかりました。

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

grepその後、URLを検索するために使用します。

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

例:

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

アーカイブされたウェブサイトからすべてのリンク（ダウンロードを除く）を抽出して印刷します。

ベストアンサー1

おすすめ記事