ドキュメントリンクを含むWebページがあります。次のコマンドを使用して文書をダウンロードできます。
wget -r -A.doc www.website.com/1.doc
wget
しかし、文書を含むページへのリンクと文書リンクをスキャンしてダウンロードできるリンクを提供したいと思います。
wget
文書タイプから特定のリンクを検索する方法はありますか?
ベストアンサー1
このようなことがうまくいくかもしれません。
wget -r -l 2 -A doc,docx,odt http://example.com/page-to-scan.html
再帰的にページを取得するhttp://example.com/page-to-scan.htmlそして、そのページのすべてのリンクをクリックして、すべてのコンテンツを次のステップにインポートします。次に、.doc、.docx、または.odtで終わらないものをすべて捨てます(docsに言及したので、MS Legacy、MS Current、およびOpen | Libre Officeの3種類があります)。