パターンに一致するURLをクロールしないようにwgetに指示しますか？

2024-06-17 • tag-icon

私のウェブサイトがスパイダーによってクロールされたときにどのように機能するかをテストしたいと思います。ただし、「ページ」という単語を含むすべてのURLを除外したいと思います。私は試した:

$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/

この-Rフラグは、「ページ」という単語を含むURLパターンを拒否する必要があります。しかし、うまくいかないようです。

Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56--  http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK

これらのURLがスパイダーによってクロールされないように除外する方法は？

ベストアンサー1

--reject-regexいくつかの試行錯誤の後、私は次のように使用することが解決策であることに気づきました。

wget -r --reject-regex page --spider --no-check-certificate -w 1 http://mysite.com/

urlregexにはワイルドカードを含めてはいけませんので*page*効果はありませんがpage効果があります。

ベストアンサー1

おすすめ記事