FCC ECFSサイトからドキュメントをダウンロードするためにwgetまたはカールを使用できますか?

FCC ECFSサイトからドキュメントをダウンロードするためにwgetまたはカールを使用できますか?

FCCのECFS(Electronic Comment Filing System)を使用して個々の訴訟ファイルを一括ダウンロードしようとしています。訴訟のすべての申請書を返すAPIがあります。単一文書の URL を次の形式で返します。

https://www.fcc.gov/ecfs/document/10809709027819/1

ただし、これがブラウザで動作している間にwgetまたはカールを使用するときにJavaScriptが必要であることを示すプレースホルダHTMLファイルのみをダウンロードします。ブラウザでページを調べてみましたが、実際のP​​DFのソースURLに似たものが見つかりませんでした。

wgetやカールを使って実際のPDFを取得する方法はありますか?

ベストアンサー1

私はFirefoxのブラウザツールを使用してPDFを返すリクエストを見て、リクエストヘッダをカットしてPDFを返す最小のリクエストを得ました。これは私にとって効果的です。

% curl 'https://www.fcc.gov/ecfs/documents/10809709027819/1' -H 'Referer: https://www.fcc.gov/ecfs/document/10809709027819/1' | file -
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  146k    0  146k    0     0   516k      0 --:--:-- --:--:-- --:--:--  518k
/dev/stdin: PDF document, version 1.7, 9 page(s)

したがって、少なくともこのPDFの場合、必要なのはRefererヘッダーを同じURLに設定するだけです。

おすすめ記事