フィルタリングによって URL から URL リストを再帰的に取得する方法

フィルタリングによって URL から URL リストを再帰的に取得する方法

以下を含むURLのリストを取得したいと思います。vimeo.comパイプを使用できるように、コマンドを使用してWebサイトを含むURLのリストを再帰的に取得します。vimeo_downloader.sh

私は使用することを好みますwgetが、他のオプションにも満足しています。

はい

index.html

<a href="01.html">01</a>
<a href="02.html">02</a>
<a href="03.html">03</a>
<a href="04.html">04</a>
<a href="05.html">05</a>
<a href="06.html">06</a>

01.html

...
... src="//player.vimeo.com/video/xxxxxxxxxx?api=1" ...
...

vimeo URLも02.htmlあります。06.htmlすべてのvimeo URLを取得する方法は01~06.html

ベストアンサー1

ダウンロードを提供するには、URLのリストを取得してからリンクを解析する必要があります。ダウンロードに外部プログラムを使用しているため、再帰ダウンロードオプションはwget実際には必要ありませんwget

GNUがgrep一致するテキストのみを印刷できると仮定すると、次のようにvimeo URLを取得できます。

wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+"

次にダウンローダに入力します。

urls=$(wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+")
for url in $urls; do
  echo "Downloading [$url]"
  vimeo_downloader.sh "$url"
done

おすすめ記事