wgetを使用してWebページからコンテンツをダウンロードする

wgetを使用してWebページからコンテンツをダウンロードする

wgetを使ってGutenbergプロジェクトのすべての本をダウンロードしたいと思います。 epub形式で受け取りたいです。リストへのリンクは次のとおりです。 http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr しかし、私が実行したとき:

  wget -H -w 2 -m "http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr"

ページにリンクされているすべてのファイルではなくHTMLページをダウンロードします。これが十分に明確であることを願っています。この質問からインスピレーションを得ました。https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenberg

ベストアンサー1

あなたはすべてのことを正しくしました。グーテンベルクのサーバーがダウンしました(一時的にお願いします)。

何が起こっているのか:aleph.gutenberg.org/cache/以下のEPUBファイルへのリンクを取得するページがありますが、aleph.gutenberg.orgはロボットが/ cacheにアクセスすることを許可しません。これがWgetがすべてのEPUBファイルをスキップする理由です。

私は問題がすぐに解決されることを願って、Project Gutenbergに電子メールを書きました。彼らの連絡先ページでは、2日以内に答えを約束しました。数日後にもう一度お試しください。 (またはrobots.txtを修正する方法を見つけてください。ほとんどの人が悪い目的で悪用しているので、ここに投稿したくありません。)

11月29日更新:問題が解決しました。

おすすめ記事