wgetとカールはWebページを間違った文字で保存します(暗号化されていますか?)

wgetとカールはWebページを間違った文字で保存します(暗号化されていますか?)

https://www.wired.com/category/security/を使用またはwgetダウンロードすると、curl結果が歪んだり暗号化されたりします。

コマンドラインからこのWebページ(暗号化されていない/一般的なHTML)を保存することは可能ですか(それでは正しい方法は何ですか)。

ベストアンサー1

要約:

ダウンロードしたファイルが圧縮されているようですので、解凍してください。

詳細な回答

ランニング:

wget https://www.wired.com/category/security/

index.htmlファイル結果のダウンロード

fileダウンロードしたファイルからコマンドを実行すると、次のようになります。

$ file index.html 
index.html: gzip compressed data, from Unix

ファイルの名前を変更し、HTML文書に解凍します。

$ mv index.html index.html.gz
$ gunzip index.html.gz 
$ file index.html 

index.html:HTML文書、UTF-8 Unicodeテキスト、長い行、太い行

追加情報 - wgetが圧縮ファイルをダウンロードするのはなぜですか?

説明したようにGZIP圧縮を使用してウェブサイトを最適化する方法:

大容量のテキストファイルをダウンロードする代わりに、最新のHTTPサーバー/クライアントは次のものを使用します。HTTP応答圧縮これにより、転送されるファイルのサイズが小さくなります。

おすすめ記事