Webサーバーのディレクトリリストで利用可能なディレクトリ/ファイル名のリストをカーリング/ wgetしようとしています。
たとえば(ランダムに選択)http://prodata.swmed.edu/download/、ダウンロードしようとしています:
bin
dev
etc
member
pub
usr
usr1
usr2
cUrl( curl http://prodata.swmed.edu/download/
) は HTML ページ全体を取得するため、すべてのファイル/ディレクトリエントリを手動で解析する必要があります。
追加のパーサをインストールせずにカール/ wgetを使用して利用可能なファイル/ディレクトリ名のみをダウンロードする方法はありますか?
ベストアンサー1
HTTPプロトコルには、HTTPサーバーから「ファイルリスト」を要求する機能はありません。
curl
//wget
ブラウザはランダムなリクエスト文字列を含むURLを要求し、サーバーはランダムなデータを返します。
ただし、次のように名前を抽出できます。
curl --silent http://prodata.swmed.edu/download/ | grep -o 'href=".*">' | sed 's/href="//;s/\/">//'
bin
dev
etc
member
pub
usr
usr1
usr2