HTMLファイルから特定のURLを抽出する方法

HTMLファイルから特定のURLを抽出する方法

書式のないHTMLファイルがあります。フォームのURLを抽出したいです。https://sitename.com/* / endingとそのURLのみ。

これを行う最良の方法は何ですか?

この質問は重複しません。別の質問は、特定のDIVの内容を抽出する方法を尋ねます。特定の形式に一致するURLのリストを抽出する方法を尋ねます。

ベストアンサー1

簡単なgrepでこれを行うことができます。

grep -o "https://sitename.com/.+/ending" somefile.html

(注:現在私の前にこれをテストする* nixマシンはありません。)

編集:私のLinuxボックスを起動して動作することを確認しました。

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

Aは.+欲が多く、あまりにも多くを捕獲するだろう。否定アサーションを使用すると、サブディレクトリの末尾を正しく見つけることができます。などのネストされたサブディレクトリは見つかりませんhttps://sitename.com/sub/directory/ending

おすすめ記事