1. 32-bit除法器的工作流程图
首先来看32-bit除法器的工作流程图,如下图所示,
2. 4-bit除法器的硬件实现
我们以4-bit除法器的硬件实现作为例子学习,如下图所示,其中8-bit的ALU既要支持加法又要支持减法,
<1> 被除数与余数共用一个8-bit寄存器,称为余数寄存器,除数寄存器也是8-bit,将除数放在除数寄存器的高4位,4-bit商寄存器初始化为4'b0000
<2> 执行减法运算,余数寄存器 - 除数寄存器,并将结果再次放入余数寄存器,下一个时钟上升沿到来时,减法结果就会存入余数寄存器,在这个例子中,减法运算结果是8'b1110_0111
<3> 这一步检查余数寄存器的内容是否大于等于0,只需看余数寄存器的最高位,1代表这个数小于0,因此要回退刚才的减法操作。此时8-bit ALU的输入端分别是余数寄存器当前的数据8'b1110_0111和除数寄存器的数据,控制逻辑发出add操作,ALU将余数寄存器和除数寄存器相加,相加的结果在下一个时钟上升沿写入余数寄存器(控制寄存器会给出写入的控制信号),这就实现了回退的效果。
<4> 商寄存器左移1为,新的最右位填0
<5> 除数寄存器右移1-bit,新的数据是8'b0001_0000
<6> 检查是否是最后一轮循环
<7> 重复<2> - <6>的工作,直到5轮计算完成,注意第5轮的除数寄存器的右移没有实际意义了,但是计算机不知道。
3. 32-bit除法器的硬件实现
和4-bit除法器的原理是一样的,如下图所示,
4. 除法器的优化
4.1 除法器的面积优化
目前的除法器存在如下浪费,
<1> 除数寄存器实际只使用了一半
<2> 商寄存器初始时是空的,从右到左逐位填满
<3> 余数寄存器初始时是满的,有实际意义的位从左到右逐渐减少
根据上面的浪费情况,提出以下解决方案,
<1> 除数寄存器缩减为32-bit,取消移位功能
<2> 取消商寄存器
<3> 64-bit ALU缩减为32-bit ALU
<4> 余数寄存器只有高32-bit参与加减法运算
<5> 余数寄存器需要支持左移和右移,左移是因为除数寄存器取消了右移功能,右移是因为余数可能会回退
<6> 商从右端逐位移入余数寄存器
<7> 运算结束时,商占据余数寄存器的低32-bit
优化后的除法器硬件结构如下图所示,