wget - 再帰的にダウンロードし、特定のMIMEタイプ/拡張のみをダウンロードする方法(例:テキストのみ)

wget - 再帰的にダウンロードし、特定のMIMEタイプ/拡張のみをダウンロードする方法(例:テキストのみ)

ウェブサイト全体をダウンロードするが、すべてのバイナリを無視する方法。

wgetこのフラグを使用すると効果がありますが、すべてをダウンロードし、-r一部のサイトはリソースが不足しているコンピュータに比べて多すぎ、サイトをダウンロードした特定の理由で役に立ちません。

これは私が使用するコマンドラインです:(wget -P 20 -r -l 0 http://www.omardo.com/blog私のブログ)

ベストアンサー1

ホワイトリストを指定できます。許可されないファイル名パターン:

許可する:

-A LIST
--accept LIST

許可されていません:

-R LIST
--reject LIST

LISTカンマ区切りのファイル名パターン/拡張子のリスト。

次の予約文字を使用してパターンを指定できます。

  • *
  • ?
  • [
  • ]

例:

  • PNGファイルのみダウンロード:-A png
  • CSSファイルをダウンロードしないでください。-R css
  • 「アバター」で始まるPNGファイルをダウンロードしないでください。-R avatar*.png

ファイルに拡張子がない場合。ファイル名に使用できるパターンはありません。 MIMEタイプの確認が必要なようです(参照Lars Kothoffの答え)。

おすすめ記事