私は次のコマンドを実行しています。
wget -r --wait=2 --random-wait -P ./pdfs -A pdf -e robots=off https://www.<somesite>/documents
このコマンドはすべてのPDFを再帰的にダウンロードするために他のWebサイトで実行されましたが、必要なWebサイトでは何も得られませんでした。詳細なエラーログを使用すると、問題を正確に特定できます。 /document/latestにリダイレクトされた後に中断されます。
Deciding whether to enqueue "https://www.<somesite>/document/latest"
https://www.<somesite>/document/latest (latest) does not match acc/rej rules.
Decided NOT to load it.
セキュリティリダイレクトによって破損しているのか、それとも後続のバックスラッシュがないため、/ latestをファイルと見なして破損したのかはわかりません。これまで私が試したことは、できるだけ多くのオプションを削除し、ボットを無視できるようにする項目を追加することでした。 -A pdfを削除できません。するとジャンクで過負荷がかかるからです。ここで何が間違っているのですか?とても感謝しています!