Wgetを使用してウェブサイトをクロールし、URLパターンでフィルタリングする

2024-06-26 • tag-icon

linux wget

ウェブサイトをスクラップしようとしていますが、wgetはすべてのリンク（同じドメイン内）を再帰的にフォローしたいが、そのURLが特定のパターンと一致する場合にのみページをダウンロードします。

私は次のことを試しました：

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

'を含むファイルのみをダウンロードします。https://www.abc.def/g/h/。 * 'パターン。しかし、他のリンクをまったく追いかけようとしません。

どんなアイデアがありますか？

よろしくお願いします！

おすすめ記事