一、浮点数的二进制转化
9.1“符号位 s+ 指数位 e+ 有效位数 f”变成二进制。
9 :1001
小数二进制和整数相反,小数点后每一位,对应的 2 -N 次方。 0.1001,转化十进制:
小数部分转二进制乘以 2,超过 1记1,结果减 1,0.1 变成了无限循环的二进制小数0.000110011
9.1:1001.000110011
浮点数是用二进制计数法表示,小数点左移三位:
s = 0, f=00100011001100110011 001。e= 3。指数位127 之前代表负数,之后代表正数,3 其实对应的是加上 127 的偏移量 130,10000010。
“s+e+f”浮点数 9.1 二进制表示 0 10000010 00100011001100110011 001。再换算成十进制,准确值9.09999942779541015625
https://www.h-schmidt.net/FloatConverter/IEEE754.html 提供了直接交互式地设置符号位、指数位和有效位数的操作。直观地看到,32 位浮点数每一个 bit 的变化,对应的有效位数、指数会变成什么样子以及最后的十进制的计算结果。
二、浮点数的加法和精度损失
浮点数加法:先对齐、再计算。
两个浮点数的指数位可能不一样,变成一样:计算有效位加法。
0.5浮点数对应的指数位是 -1,有效位是 00…(后面全是 0,f 前默认一个 1)。0.125 指数位是 -3,有效位 00…(后面全是 0,f 前默认一个 1)。
0.5+0.125 指数位对齐,统一成较大的 -1。对应的有效位 1.00对应右移两位,f 前有默认 1,变成 0.01。相加有效位 1.f,= 1.01,指数位是 -1。
位移实现加法,半加器和全加器就ok
指数位较小数在有效位进行右移,右侧有效位丢掉,相差越大,丢失精度越多:
32 位浮点数有效位 23 位,两个数指数位差出 23 位,所有的有效位就都丢失了。
对应的输出结果就是:
三、Kahan
Summation 算法
用循环相加 2000 万个 1.0f,结果是 1600 万左右,不是 2000 万。加到 1600 万之后的加法因为精度丢失
对应的输出结果是:sum is 1.6777216E7
Kahan Summation算法来解决
对应的输出结果就是:sum is 2.0E7
每次计算都用一次减法,把损失的精度记下,再加上去。避免大数吃小数
总结延伸
浮点表示范围大,但精度损失,结果和预期不同,乃至于完全没有加上。
需要精确数值,比如银行存款、电商交易,使用定点数、整数类型。
对于精度损失,用 Kahan Summation 软件层面的算法解决。
课后思考
浮点数加法讲完了。了解乘、除法《计算机组成与设计 硬件 / 软件接口》 3.5.2 和 3.5.3。
两节都是 32 位浮点数, 64 位浮点数加法,两个数相差多少,较小的哪个数在加法过程中会完全丢失呢?
52位