最近、大学でデータ圧縮のコースを始めました。しかし、コンピュータ サイエンスに適用される「エントロピー」という用語の使い方は、かなり曖昧だと思います。私の知る限り、これはシステムまたは構造の「ランダム性」と大まかに訳されます。
コンピュータサイエンスの「エントロピー」の適切な定義は何ですか?
ベストアンサー1
エントロピーにはさまざまな意味があります。
コンピューティングにおいて、エントロピーとは、暗号化やランダム データを必要とするその他の用途で使用するためにオペレーティング システムまたはアプリケーションによって収集されるランダム性です。このランダム性は、マウスの動きなどの既存のものや特別に用意されたランダム性ジェネレータなどのハードウェア ソースから収集されることがよくあります。
情報理論では、エントロピーはランダム変数に関連する不確実性の尺度です。この文脈でエントロピーという用語自体が通常指すのはシャノンエントロピーです。これは、期待値の意味で、メッセージに含まれる情報を通常はビットなどの単位で定量化します。同様に、シャノンエントロピーは、ランダム変数の値がわからない場合に失われる平均的な情報量の尺度です。
データ圧縮におけるエントロピー
データ圧縮におけるエントロピーは、圧縮アルゴリズムに入力するデータのランダム性を表します。エントロピーが大きいほど、圧縮率は低くなります。つまり、テキストがランダムであるほど、圧縮率は低くなります。
シャノンのエントロピーは、あらゆる通信の可能な限り最高のロスレス圧縮の絶対的な限界を表します。エンコードされるメッセージを、独立した同一分布のランダム変数のシーケンスとして扱うと、シャノンの情報源符号化定理は、その限界において、特定のアルファベットでメッセージをエンコードするための可能な限り最短の表現の平均長は、そのエントロピーをターゲット アルファベットのシンボル数の対数で割った値になることを示します。