重複した画像を同時にダウンロードする方法は？

Question

私の考えでは、あなたの問題は--page-requisites。重複したアイテムを識別して再ダウンロードするのを防ぐと思います。これは一般的にあなたが望むものです。次のように各URLに対してwgetを1回呼び出し、毎回別のフォルダにダウンロードすることでこの問題を解決できます。

#!/bin/bash
let i=0
while IFS=$'\n' read url; do 
  let i++; 
  wget -nv -P $i --page-requisites "$url"; 
done < urls.txt

ただし、各ファイルに含まれる画像は1つだけ必要です。これにより、トリックを実行できます。

wget -i urls.txt -q -O - | ...extract image URLs... | wget -nv -i -

HTMLからURLを抽出することは、逐語的なURLを見つけるのと同じくらい簡単です。

grep -Eo 'http://host/abc/[^"]+.jpg'

またはもう少し努力が必要です。 900個のURLが同様のHTMLを指している場合は問題になりません。とにかく、名前が競合するファイルに番号を付けます。

Answer 1

私の考えでは、あなたの問題は--page-requisites。重複したアイテムを識別して再ダウンロードするのを防ぐと思います。これは一般的にあなたが望むものです。次のように各URLに対してwgetを1回呼び出し、毎回別のフォルダにダウンロードすることでこの問題を解決できます。

#!/bin/bash
let i=0
while IFS=$'\n' read url; do 
  let i++; 
  wget -nv -P $i --page-requisites "$url"; 
done < urls.txt

ただし、各ファイルに含まれる画像は1つだけ必要です。これにより、トリックを実行できます。

wget -i urls.txt -q -O - | ...extract image URLs... | wget -nv -i -

HTMLからURLを抽出することは、逐語的なURLを見つけるのと同じくらい簡単です。

grep -Eo 'http://host/abc/[^"]+.jpg'

またはもう少し努力が必要です。 900個のURLが同様のHTMLを指している場合は問題になりません。とにかく、名前が競合するファイルに番号を付けます。

おすすめ記事