私は基本的にHTMLページ、画像、サウンドで構成されたWebサイトをサーバーに運営しています。
このサーバーのパスワードを忘れたので、すべてをそこに保存する必要があります。ページを1つずつ見てすべての内容を保存できますが、サイトのページは100ページを超えています。
私はOSXを使用しています。を使ってみましたwget
が、サーバーからブロックされているようです。
このコンテンツを取得するために使用できる他の方法はありますか?
ベストアンサー1
サーバーがwgetをブロックしている場合は、httpヘッダーの「User-agent:」フィールドに基づいてブロックする可能性が高くなります。なぜなら、それが最初にwgetについて知る唯一の方法だからです。また、IPをブロックする可能性があります。この場合、他のソフトウェアを使用することは役に立たないか、一連の要求速度に基づいて自動化を識別するいくつかの計画があります(実際の人は3.2秒で100ページを閲覧しないためです) )。私は誰かがこれをすることを聞いたことがありませんが、可能です。
wgetを遅くする方法は聞いたことがありませんが、ユーザーエージェントフィールドをなりすます方法はあります。
wget --user-agent=""
マニュアルページによると、「User-agent:」は必須ではなく、完全に削除されます。サーバーがこれが気に入らない場合は、--user-agent="Mozilla/5.0"
どちらが十分に良いか試してみてください。
もちろん、「サーバーがブロックされていると思う」理由をよりよく説明すると役に立ちます。何を言ったのか、それとも時間が過ぎたのでしょうか?