算是读书笔记吧
极客时间--深入浅出计算机组成原理
现场可编程门阵列 -- FPGA(Field-Programmable Gate Array)
FPGA 本质上是一个可以通过编程,来控制硬件电路的芯片。
设计更简单一点儿的专用于特定功能的芯片,少不了要几个月。而设计一个 CPU,往往要以“年”来计。在这个过程中,硬件工程师们要设计、验证各种各样的技术方案,可能会遇到各种各样的 Bug。如果我们每次验证一个方案,都要单独设计生产一块芯片,那这个代价也太高了。
用存储换功能实现组合逻辑
CPU通过不同电路处理不同的输入得到结果
FPGA中将输入与输出的对应关系保存在名为LUT的存储空间中
可编程逻辑布线,来连接各个不同的 CLB(可配置逻辑块),实现芯片功能
存储着不同逻辑的CLB,最初已经像铁路一样被连接好了。
我们可以通过控制道岔,来确定不同的列车线路。
在可编程逻辑布线里面,“编程”在做的,就是拨动像道岔一样的各个电路开关。
FPGA,常常被我们用来进行芯片的设计和验证工作,也可以直接拿来当成专用的芯片,替换掉 CPU 或者 GPU,以节约成本。
专用集成电路 -- ASIC(Application-Specific Integrated Circuit)
为专门用途的场景,单独设计的芯片
因为 ASIC 是针对专门用途设计的,所以它的电路更精简,单片的制造成本也比 CPU 更低。而且,因为电路精简,所以通常能耗要比用来做通用计算的 CPU 更低。
比如早期不可编程的图形加速卡、摄像头、音频、“挖矿”或者深度学习等等场景所使用的专用芯片。
FPGA其实也可以编写成专用的ASIC芯片。
虽然 ASIC 的研发成本高昂,但是生产制造成本和能耗都很低。
所以如果要量产的专用芯片的话,FPGA的成本过于浪费了。
TPU
深度学习专用的ASIC芯片
第一代TPU
负责处理深度学习计算量最大的推断部分
目标是在保障响应时间的情况下,能够尽可能地提高能效比这个指标,也就是进行同样多数量的推断工作,花费的整体能源要显著低于 CPU 和 GPU
- 快速上线和向前兼容
TPU 并没有设计成一个独立的“CPU“,而是设计成一块像显卡一样,插在主板 PCI-E 接口上的板卡。
更进一步地,TPU 甚至没有像我们之前说的现代 GPU 一样,设计成自己有对应的取指令的电路,而是通过 CPU,向 TPU 发送需要执行的指令。
不过,这样一个 TPU,其实是第 26 讲里我们提过的 387 浮点数计算芯片,是一个像 FPU(浮点数处理器)的协处理器(Coprocessor)而存在,仅仅用来进行需要的各种运算。
- 专用电路和大量缓存,适应推断的工作流程
一个深度学习的推断过程,是由很多层的计算组成的。而每一个层(Layer)的计算过程,就是先进行矩阵乘法,再进行累加,接着调用激活函数,最后进行归一化和池化。
这里的硬件设计呢,就是把整个流程变成一套固定的硬件电路。这也是一个 ASIC 的典型设计思路,其实就是把确定的程序指令流程,变成固定的硬件电路。
可以看到,超过一半的 TPU 的面积,都被用来作为 Local Unified Buffer(本地统一缓冲区)(29%)和矩阵乘法单元(Matrix Mutliply Unit)了
- 在深度学习推断的过程中,矩阵乘法的计算量是最大的,计算也更复杂,所以比简单的累加器和激活函数要占用更多的晶体管
- 统一缓冲区(Unified Buffer),则由 SRAM 这样高速的存储设备组成。因为在整个的推断过程中,它会高频反复地被矩阵乘法单元读写,来完成计算。
可以看到,整个 TPU 里面,每一个组件的设计,完全是为了深度学习的推断过程设计出来的。
这也是我们设计开发 ASIC 的核心原因:用特制的硬件,最大化特定任务的运行效率。
- 使用 8 Bits 数据
矩阵乘法单元,没有用 32 Bits 来存放一个浮点数,而是只用了一个 8 Bits 来存放浮点数。
因为机器学习的推断功能,通常做了数值的归一化,所以对于矩阵乘法的计算精度要求有限,整个矩阵乘法的计算模块采用了 8 Bits 来表示浮点数,而不是像 Intel CPU 里那样用上了 32 Bits。
因为这个数值上的特征,我们需要的浮点数的精度也不需要太高。
8 Bits 的矩阵乘法器,就可以放下更多的计算量,使得 TPU 的推断速度更快。
TPU有多快?
按照 Google 论文里面给出的官方数据,它可以比 CPU、GPU 快上 15~30 倍,能耗比更是可以高出 30~80 倍。而 TPU,也最终替代了 Google 自己的数据中心里,95% 的深度学习推断任务。