HTML拡張子のないウェブサイトへのリンクをミラーリングするようにwgetにどのように指示しますか？

2024-06-29 • tag-icon

wget

ウェブサイト（書店）があります。https://helion.plリンクは次のとおりです。

/kategoria/programowanie

物理ファイルの代わりにディスクにPHPアプリケーションがある可能性があります。

このウェブサイトをどのようにミラーリングしますか？ PDFファイルと画像（画像は別のドメインにあります）を除くすべてを持ちたいです。

私は次のコマンドを試しました。

wget -rmLk -U Mozilla --domains=helion.pl --wait=5 --reject-regex="pdf$" https://helion.pl/kategorie/ksiazki

ただし、単一のindex.htmlファイルをダウンロードしてください。

また、一部のリンクにはhtm拡張子（除外t）があり、前にあります//helion.pl。

注：パートナープログラムをよりよく利用できるように、Webサイトをミラーリングしたいと思います。（彼らは本と一緒にxmlファイルを提供しますが、データが欠落してウェブサイトをミラーリングしてから処理して確認します。）

変更がある場合は、Fedora 29を使用しています（アップグレードが必要です）。

おすすめ記事