double を 32 ビット int に丸める高速な方法を説明します質問する

Question

浮動小数点型の値doubleは次のように表されます。

二重表現

これは 2 つの 32 ビット整数として見ることができます。ここで、intコードのすべてのバージョンで取得される（32 ビットであると仮定int）は、図の右側にあるものなので、最終的に行っていることは仮数の下位 32 ビットを取得することだけです。

さて、魔法の数字についてですが、あなたが正しく述べたように、6755399441055744は2 ⁵¹ + 2 ⁵²です。このような数字を加えると、 2 ⁵²と2 ⁵³doubleの間の「スイート範囲」に入ることになります。Wikipediaによる説明は興味深い特性を持っています:

2 ⁵² = 4,503,599,627,370,496 から 2 ⁵³ = 9,007,199,254,740,992 までの間では、表現可能な数値は整数そのものです。

これは仮数が 52 ビット幅であるという事実から生じます。

^{2 51} + 2 ⁵²を加算することに関するもう 1 つの興味深い事実は、仮数部の上位 2 ビットのみに影響することです。下位 32 ビットのみを取得するため、これらのビットはいずれにしても破棄されます。

最後になりましたが、標識についてです。

IEEE 754 浮動小数点では絶対値と符号の表現が使用されますが、「通常の」マシン上の整数では 2 の補数演算が使用されます。ここではどのように処理されるのでしょうか。

これまでは正の整数についてのみ説明してきましたが、今度は 32 ビットで表現できる範囲の負の数、つまり (-2 ³¹int + 1)より小さい数 (絶対値で)を扱っているとします。これを -a と呼びます。このような数はマジックナンバーを加えることで正になることは明らかで、結果の値は 2 ⁵² + 2 ⁵¹ + (-a) になります。

さて、仮数を 2 の補数表現で解釈するとどうなるでしょうか? これは (2 ⁵² + 2 ⁵¹ ) と (−a) の 2 の補数和の結果でなければなりません。ここでも、最初の項は上位 2 ビットにのみ影響し、ビット 0 ～ 50 に残るのは (−a) の 2 の補数表現です (ここでも上位 2 ビットは除きます)。

2 の補数の数をより狭い幅に縮小するには、左側の余分なビットを削除するだけでよいため、下位 32 ビットを取ると、32 ビットの 2 の補数演算で正しく (-a) が得られます。

Answer 1