Webサーバーインデックスからのみディレクトリ/ファイル名リストをダウンロードする

Webサーバーインデックスからのみディレクトリ/ファイル名リストをダウンロードする

Webサーバーのディレクトリリストで利用可能なディレクトリ/ファイル名のリストをカーリング/ wgetしようとしています。

たとえば(ランダムに選択)http://prodata.swmed.edu/download/、ダウンロードしようとしています:

bin
dev
etc
member
pub
usr
usr1
usr2

cUrl( curl http://prodata.swmed.edu/download/) は HTML ページ全体を取得するため、すべてのファイル/ディレクトリエントリを手動で解析する必要があります。

追加のパーサをインストールせずにカール/ wgetを使用して利用可能なファイル/ディレクトリ名のみをダウンロードする方法はありますか?

ベストアンサー1

HTTPプロトコルには、HTTPサーバーから「ファイルリスト」を要求する機能はありません。

curl//wgetブラウザはランダムなリクエスト文字列を含むURLを要求し、サーバーはランダムなデータを返します。

ただし、次のように名前を抽出できます。

curl --silent http://prodata.swmed.edu/download/ | grep -o 'href=".*">' | sed 's/href="//;s/\/">//'  

bin
dev
etc
member
pub
usr
usr1
usr2

おすすめ記事