"$wget -A.pdf -r site.com"のトラブルシューティング

コマンドを使用して作業ファイルをインポートしようとしていますが、何らかの理由でそのファイルは返されません。理由をご存知ですか?

$ wget -A.pdf -r -nd https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/

私の目標は、すべてのタスクをダウンロードしてマージし、いくつかのpdftkプログラムを使用して検索することです。ただし、これを完了するまで続行できません(Firefox DownloadThemAll -プラグインを再利用しないでください)。なぜアイデアが機能しないのですか?システム管理者がwgetsに対していくつかの禁止を設定しましたか?それとも、なぜ失敗するのですか?

この robots.txt ファイルのみを取得します。

$ cat robots.txt 
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/

ベストアンサー1

問題はrobots.txt.Wgetにあります。

User-agent: *
Disallow: /

Tell wgetを使用してファイルを無視できますrobots.txt

wget -A.pdf -r -nd -e robots=off  https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/

動作します。

おすすめ記事