次のコンテンツを含むWebサイトのディレクトリからすべてのPDFファイルをダウンロードしようとしています。
wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/
ただし、引き続き「エラー404:見つかりません」と表示されます。これは非常に簡単な使い方のようですが、次に何を試すべきかわかりません。
ベストアンサー1
wget -rは、指定されたURLからすべてのPDFリンクにアクセスできる場合にのみ機能します。
あなたができることは、特定のサイトのHTMLソースコードを「見る」ことです。http://eduplace.com/math/mw/practice/1/lp_1_u1sel.htmlすべてのPDFリンクがどのように構成されているかを確認してください。次に、それを自動化する小さなスクリプトを次のように作成します。
wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
for f in $FEAT; do
wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
done
done