wgetを使用して単一ページにリンクされているすべてのPDFファイルをダウンロードする方法

wgetを使用して単一ページにリンクされているすべてのPDFファイルをダウンロードする方法

このWebページにリンクされているすべてのPDFファイルをダウンロードする必要があります。https://www.in.tum.de/i07/lehre/ss22/theo/

これまでに試みたすべてのタスクからファイルを取得できなかったかダウンロードできませんでした。みんな再帰的にウェブサイトにアクセスしてください。

しかし、私はこのページ(ウェブサイトではない)に直接リンクされているPDFにのみ興味があります。

ありがとうございます。

ベストアンサー1

wget()および()オプションを使用して、--no-parentこのオプションでミラーリングされるサイトの量を制御できます。 ()および()オプションは、wgetがリモートディレクトリ構造をコピーするのを防ぎます。 -np--level=depth-l-r--no-host-directories-nH--no-directories-nd(オプションが完全な形式で書かれている場合は二重ハイフンがオプションの前にあり、オプションが省略形で書かれている場合は単一のハイフンがオプションの前にあります。--no-parent is -np)

たとえば、次のようになります。

wget -r -l 1 -nH -nd -np --ignore-case -A '*.pdf' https://www.in.tum.de/i07/lehre/ss22/theo/

デフォルトでは、現在のディレクトリに.pdfファイルが保存されます。この-Pオプションを使用して、別の出力ディレクトリを指定できます。

wget非常に柔軟でオプションがたくさんあります。マンページが多すぎて初めて読むときにマンページが負担になることがありますが、読んで試してみる価値があることは明らかです。

おすすめ記事