https://www.wired.com/category/security/
を使用またはwget
ダウンロードすると、curl
結果が歪んだり暗号化されたりします。
コマンドラインからこのWebページ(暗号化されていない/一般的なHTML)を保存することは可能ですか(それでは正しい方法は何ですか)。
ベストアンサー1
要約:
ダウンロードしたファイルが圧縮されているようですので、解凍してください。
詳細な回答
ランニング:
wget https://www.wired.com/category/security/
index.html
ファイル結果のダウンロード
file
ダウンロードしたファイルからコマンドを実行すると、次のようになります。
$ file index.html
index.html: gzip compressed data, from Unix
ファイルの名前を変更し、HTML文書に解凍します。
$ mv index.html index.html.gz
$ gunzip index.html.gz
$ file index.html
index.html:HTML文書、UTF-8 Unicodeテキスト、長い行、太い行
追加情報 - wgetが圧縮ファイルをダウンロードするのはなぜですか?
説明したようにGZIP圧縮を使用してウェブサイトを最適化する方法:
大容量のテキストファイルをダウンロードする代わりに、最新のHTTPサーバー/クライアントは次のものを使用します。HTTP応答圧縮これにより、転送されるファイルのサイズが小さくなります。