急流の1〜2ページで参照されているPDFファイルをダウンロードする方法

急流の1〜2ページで参照されているPDFファイルをダウンロードする方法

URLのリストがありますが、すべて次のようになります。http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225;.pdf ファイルはこのページ内で参照されます。 wgetまたはカールを使用してこのファイルをダウンロードする必要があります。

私はこれを試みます:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf

そして

wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225  

しかし、プロトコルエラーが発生します。

www.contratos.gov.co(www.contratos.gov.co) 解決中... 201.234.78.2 www.contratos.gov.co(www.contratos.gov.co)|201.234.78.2|:80です。 。つながりました。 HTTP要求が送信され、応答を待っています... 200 OK長さ:指定されていません[text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225:プロトコルエラー

「www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225」に書き込めません(プロトコルエラー)

URLを解析してから、最初のページにリンクされているpdfファイルをダウンロードするようにwgetにコマンドするためにどのフラグを使用できますか?

ベストアンサー1

WgetとCurlは、HTML文書のアンカータグ内のリンクのみを解析します。
あなたが参照するページは、ドキュメントをダウンロードするためのリンクと一緒にPOSTメソッドを使用します。

ファイルをダウンロードし、すべてのリンクを手動で解決する必要があります。これはwgetがあなたのためにすることができないことです。

編集:しかし、なぜプロトコルエラーが発生するのかわかりません。 --debugオプションを使用して同じコマンドを実行し、出力を表示できる場所に貼り付けますか?

おすすめ記事