IEEE浮点数表示法

IEEE浮点数标准将数表示成形式 $V=(-1)^s\times M\times 2^E$ ：

浮点数的位表示分成3个字段对符号数 $s$ 、有效数 $M$ 、指数 $E$ 进行编码：

$1$ 位的符号字段s对符号数 $s$ 进行编码。
$k$ 位的指数字段 $exp=e_{k-1}...e_1e_0$ 对指数 $E$ 进行编码；
$n$ 位的分数字段 $frac=f_{n-1}...f_1f_0$ 对有效数 $M$ 进行编码，但是编码后的 $frac$ 值取决于指数字段exp是否等于 $0$ 。

图2.32展示了如何将这3个字段打包成两种最常见格式的字。

标准的浮点数格式.png

在单精度浮点数格式(C语言中的float)里，字长为 $32$ 位： $1$ 位表示符号字段s， $8$ 位表示指数字段exp， $23$ 位表示分数字段frac。
在双精度浮点数格式(C语言中的double)里，字长为 $64$ 位： $1$ 位表示符号字段s， $11$ 位表示指数字段exp， $52$ 位表示分数字段frac。

对于单精度浮点数，根据指数字段exp的值，一个给定二进制表示的数值可分成3种不同的情况：

特征

指数字段exp既不全是0，也不全是1；
指数值 $E=exp-Bias$ ；
$M=1+f$ ；

解释：

单精度情形下，指数字段exp的无符号数范围是1到254，双精度情形下，指数字段exp的无符号数范围是1到2046；
解释指数 $E$ 为一个用偏移形式表示的有符号数，即指数值 $E=exp-Bias$ ，其中exp是位模式为 $e_{k-1}...e_1e_0$ 的无符号数， $Bias=2^{k-1}-1$ (单精度情形数值为 $127=2^{8-1}-1$ ，双精度情形数值为 $1023=2^{11-1}-1$ )。据此可得出：单精度情形下指数值 $E$ 的数值范围是 $-126$ 到 $127$ ，双精度情形下指数值 $E$ 的数值范围是 $-1022$ 到 $1023$ 。
解释有效数 $M$ 为一个二进制表示为 $1.f_{n-1}...f_1f_0$ 的数，等价于有效数 $M=1+f$ ，这叫做隐式1开头表示。这样能多表示1位精度，因为通常会调整指数 $E$ 使得有效数 $M$ 满足 $1\leq M<2$ ，且开头的位一直等于1，不需要显式地表示。用字段frac来表示分数值 $f$ ，其中 $0\leq f<1$ ，对应的二进制表示为 $0.f_{n-1}\cdots f_1f_0$ 。