gzip -tが切り捨てられたダウンロードエラーを100％検出できますか？

Question

gzip形式のファイルには、圧縮データの長さと圧縮されていないデータの長さが含まれます。ただし、これは古い形式で、長さフィールドは32ビットにすぎないため、モジュロ2^32（つまり4GiB）の長さと解釈されます。解凍する前に、gzip圧縮データのチェックサムが正しいことを確認してください。解凍後、解凍gzipされたデータのチェックサムが正しいこと、解凍されたデータのサイズが2^32モジュールで正しいことを確認します。

したがって、圧縮データのサイズ（または圧縮解除されたデータのサイズ）が4GiB未満の場合、gzipは切り捨てられた入力を検出します。ただし、任意のサイズのファイルの場合、これらのチェックには十分な理由はありません。入力が意図的に設計されておらず、長さが4GiBモジュールに均一に分散されている場合、圧縮された長さとチェックサムの一致の可能性は1/2 ^ 64にすぎません。中に一致しません。（圧縮された長さモジュロ2^32と圧縮されていない長さモジュロ2^32が互いに関連しているため、これは必ずしも機会を1/2^96に減らすわけではありません。）したがって、エラーが検出されない可能性は少なくなります。 0ではなく、おそらく意図的に作成されたと確信しています。

この分析は、gzip ファイルが単一ストリームで構成されている場合にのみ適用されます。gunzip複数のリンクストリームで構成されたファイルを解凍することができ、ファイルに有効なストリームシーケンスが含まれているかどうかを検出する方法はありませんが、より多くのストリームが必要です。ただし、本番チェーンはおそらくマルチストリームファイルを生成しません。gzipそれ自体は生成せず、複数の実行の出力を手動でリンクするか、別のツール（pkzip？）を使用する必要があります。

サーバーがアトミック移動操作を使用していません。

残念ながら、サーバーが書き込みを完了した後に計算された外部メタデータ（長さまたは暗号化チェックサム）やその方法なしでエラーを検出するための完全に信頼できる方法はないと思います。

Answer 1

gzip形式のファイルには、圧縮データの長さと圧縮されていないデータの長さが含まれます。ただし、これは古い形式で、長さフィールドは32ビットにすぎないため、モジュロ2^32（つまり4GiB）の長さと解釈されます。解凍する前に、gzip圧縮データのチェックサムが正しいことを確認してください。解凍後、解凍gzipされたデータのチェックサムが正しいこと、解凍されたデータのサイズが2^32モジュールで正しいことを確認します。

したがって、圧縮データのサイズ（または圧縮解除されたデータのサイズ）が4GiB未満の場合、gzipは切り捨てられた入力を検出します。ただし、任意のサイズのファイルの場合、これらのチェックには十分な理由はありません。入力が意図的に設計されておらず、長さが4GiBモジュールに均一に分散されている場合、圧縮された長さとチェックサムの一致の可能性は1/2 ^ 64にすぎません。中に一致しません。（圧縮された長さモジュロ2^32と圧縮されていない長さモジュロ2^32が互いに関連しているため、これは必ずしも機会を1/2^96に減らすわけではありません。）したがって、エラーが検出されない可能性は少なくなります。 0ではなく、おそらく意図的に作成されたと確信しています。

この分析は、gzip ファイルが単一ストリームで構成されている場合にのみ適用されます。gunzip複数のリンクストリームで構成されたファイルを解凍することができ、ファイルに有効なストリームシーケンスが含まれているかどうかを検出する方法はありませんが、より多くのストリームが必要です。ただし、本番チェーンはおそらくマルチストリームファイルを生成しません。gzipそれ自体は生成せず、複数の実行の出力を手動でリンクするか、別のツール（pkzip？）を使用する必要があります。

サーバーがアトミック移動操作を使用していません。

残念ながら、サーバーが書き込みを完了した後に計算された外部メタデータ（長さまたは暗号化チェックサム）やその方法なしでエラーを検出するための完全に信頼できる方法はないと思います。

gzip -tが切り捨てられたダウンロードエラーを100％検出できますか？

ベストアンサー1

おすすめ記事