Lynx はファイルから URL を読み、リンクをダウンロードします。

Lynx はファイルから URL を読み、リンクをダウンロードします。
  1. 私のファイルには500のURLがあります。
  2. このURLに表示されるすべてのリンクを抽出する必要があります。

Lynxを使用してファイルを読み取り、ファイルのリンクを抽出する方法は?

以下の例は、file.txt1行に1リンク、合計500行です。

https://itunes.apple.com/
https://play.google.com/

...など

ベストアンサー1

拡張スクリプトは次のとおりです。

#!/bin/sh
cat file.txt |while read url
do
    lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u

lynxが認識するすべてのタイプのURLが許可されます(例:ftpを含む)。スクリプトは結果をソートして重複を削除します(Lynxはデフォルトではこれを行いません)。

追加資料:

おすすめ記事