このWebページからすべてのファイルをダウンロードしようとしています。https://www.lezioni4all.com/ase/appunti だから私は "wget"コマンドを使用しましたが、うまくいかなかったので調査してみました。パスは次のようになります。http//something/resource/%10hi%10Ineedof%10thisresource
(上記のリンクを開いて、ページで「conflitti」などの要素を選択すると、その項目に「プレビュー」の種類があることがわかります。下部の行をクリックすると、リソースが次の形式で開きます。表示されているのと同じですが、名前に%10、%20 ...などの一部の割合が含まれています。
ダウンロードできないファイルを公開されたページのURLのみを入力してダウンロードできる方法をご存知ですか?
私は次のコマンドを試しました。
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off --no-parent -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti
wget --page-requisites -p --convert-links -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti
また、インターネットでは白いウィンドウを開く空のファイルだけを受け取ります。
ベストアンサー1
PDF URLはJavaScriptonclick
プロパティに含まれています。あなたはできますgrep
:
wget -qO- https://www.lezioni4all.com/ase/appunti |
grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf"
no-clobberオプション-nc
(各文書は2回リンクされているため)を使用してダウンロードでき、次の操作を行います-i
。
wget -nc -P ~/Desktop/ASE_lezioni4all -i <(
wget -qO- https://www.lezioni4all.com/ase/appunti |
grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf")