最近在项目中遇到了浮点数相加结果显示异常的问题,如下图所示
理论上来说,d应该是等于0的,为什么结果和预期的不一样呢,所以抽空研究了一下float
原理
浮点数的表示有一个 IEEE 的标准,它定义了两个基本的格式。
- 用 32 比特表示单精度的浮点数,即 float 或者 float32 类型。
- 用 64 比特表示双精度的浮点数,即 double 或者 float64 类型。
这两种原理差不多,所以只要看单精度类型的就可以了
第一部分是一个符号位,用来表示是正数还是负数,用 s 来表示,所有的浮点数都是有符号的。
接下来是一个 8 个比特组成的指数位。一般用 e 来表示。8 个比特能够表示的整数空间,就是 0~255。我们在这里用 1~254 映射到 -126~127 这 254 个有正有负的数上。浮点数希望能够表示很小的数,所以指数位也会有负数。
最后,是一个 23 个比特组成的有效数位。我们用 f 来表示。综合科学计数法,我们的浮点数就可以表示成下面这样: (−1)s × 1.f × 2e
以 0.5 为例子。0.5 的符号为 s 应该是 0,f 应该是 0,而 e 应该是 -1,也就是0.5 = (−1)0 × 1.0 × 2−1 = 0.5,对应的浮点数表示,就是 32 个比特。如下图所示s=0,e=2−1,需要注意,e 表示从 -126 到 127 个,-1 是其中的第 126 个数,这里的 e 如果用整数表示,就是 26 + 25 + 24 + 23 + 22 + 21 = 126,1.f=1.0。
为什么会不精确
10进制小数转换为2进制的方法:乘2,然后取整(整数部分最大为1,最小为0),小数部分继续乘2,取整,直到小数部分0为止。
以0.1为例,转化如下
乘2 | 整数部分 | 二进制表示 | |
---|---|---|---|
1 | 0.1*2=0.2 | 0 | 0 |
2 | 0.2*2=0.4 | 0 | 0 |
3 | 0.4*2=0.8 | 0 | 0 |
4 | 0.8*2=1.6 | 1 | 1 |
5 | 0.6*2=1.2 | 1 | 1 |
6 | 0.2*2=0.4 | 0 | 0 |
从第6行开始就会重复2~5行的运算,0.1就会变成一个无限循环的小数:0.000110011……,这里的0011无限循环。浮点数其实是用二进制的科学计数法来表示的,所以我们可以把小数点左移三位,这个数就变成了:1.10011001100110011…× 2-4。
这种科学计数法对应打上面的格式为:符号位 s = 0,对应的有效位 f=1001100110011…。因为 f 最长只有 23 位,那这里“0011”无限循环,最多到 23 位就截止了。于是,f=10011001100110011001100。对应的指数为 e,代表的应该是 -4。其对应的是123,转化成二进制就是 01111011。那么最终的二进制表示为:001111011 10011001100110011001100
现在再将二进制浮点数转化为十进制,结果为0.0999999940395
知道这些有什么用?
在讨论这个之前,先看一下浮点数如何相加。首先要把两个的指数位对齐,也就是把指数位都统一成两个其中较大的那个,那么指数位较小的数,需要进行有效位右移,在右移的过程中,最右侧的有效位就被丢弃掉了。这会导致对应的指数位较小的数,在加法发生之前,就丢失精度。如果两个数的指数位差出 23 位,较小的数右移 24 位之后,所有的有效位就都丢失了。这也就意味着,虽然浮点数可以表示上到 3.40×1038,下到 1.17×10−38 这样的数值范围。但是在实际计算的时候,只要两个数,差出 224,也就是 16777216倍,那这两个数相加之后,结果完全不会变化。如下图所示
参考文章:深入浅出计算机组成原理