カールを使用してWebサイトのページで使用されている画像のリストを取得する方法

カールを使用してWebサイトのページで使用されている画像のリストを取得する方法

ウェブサイトのページで利用可能なすべての画像を取得する方法。

ここでは、WebページのすべてのHTMLコードを取得するためにカールを使用します。

curl http://www.xyztest.com

このWebページで使用されている画像のリストをどのように取得できますか?

ベストアンサー1

例を示すために使用できますwget。すべての画像を含むリストを取得し(必要な場合)、次からすべての画像をダウンロードしてみましょう。このウェブサイト

1)wgetを使用してインデックスページをダウンロードします。

wget -k https://www.pexels.com/

kローカルリンクをグローバルリンクに変換するオプション(非常に重要)

2) ここで必要な情報を掘り下げてみましょう。まず、スローをフィルタリングしてタグ付きの行のみをgrep img取得します<img>。 2番目のgrepは正規表現を使用してリンクアドレスを取得します。文字sedの後ろのリンクからパラメータを切り取ります?。最後に、リンクをlink.txtに保存してください。

cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt

3)今すぐすべての画像を簡単にダウンロードできます

wget -i links.txt

パイプセットを使用してリンクをダウンロードして処理できますが、curl必要に応じて以下を使用します。

curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt

おすすめ記事