对于深度学习神经网络,大部分都是包含卷积的,并且,卷积层往往是网络中最耗时的部分,当然还有全连接层(全连接层可以看成特殊的卷积层)。很多时候,卷积和全连接层会占用80%到95%的计算时间。这样看来,对卷积层的加速优化就显得很重要。
我们可以看看现在主流的深度学习框架,就可以知道现在业界主流的卷积层的优化算法。比如caffe中的卷积用的是im2col + GEMM(Image to Column + GEneral Matrix Mutiplication),比如移动端的深度学习框架NCNN(腾讯)、Paddlelite(百度)、MNN(阿里)等中用的是Winograd算法,再比如facebook用过的深度学习框架NNPACK中的卷积用的是FFT(Fast Fourier Transforms)——快速傅里叶变换。现在主流的卷积加速的实现大概就这三种,它们各有各的优缺点,各有各的适用场景。
im2col + GEMM
先来说im2col,这个名字可以说很形象了,image to column,就2维卷积来说,im2col就是把一个2维矩阵展开成列,如下图:图片来自https://blog.csdn.net/dwyane12138/article/details/78449898
展开成列后就容易了,我们只需要把卷积核也展开成列:
接下来就一目了然了,GEMM,进行矩阵乘法就行。
看到这里,im2col的缺点也就显而易见了,当stride<kernel size的时候(stride就是每一步卷积核移动的格子数),会有大量的重复像素被包含到转换之后的矩阵之中。这对于可以拥有大内存的PC端来说可能不算什么,但是对于资源利用寸土寸金的移动端来说,就显得不美好了。
FFT快速傅里叶变换
傅里叶变换,对于通信专业的人来说可能并不陌生,它的本质其实就是把时域中的卷积运算转换成频域中的乘积运算。通过卷积定理,我们知道两个离散信号在时域做卷积的离散傅里叶变换相当于这两个信号的离散傅里叶变换在频域做相乘。
那么FFT具体时怎么做的呢?
第一步:把image做离散傅里叶变换变换到频域
第二步:把卷积核做离散傅里叶变换变换变换到频域
第三步:把它们做离散傅里叶变换后进行相乘
第四步:把结果做逆离散傅里叶变换变换到时域
虽然FFT可以把时域运算转换到频域运算,减少了直接卷积的计算量,但是它的缺点是要在频域中对一副图像进行滤波,滤波器的大小和图像的大小必须要匹配,这样两者的相乘才容易。因为一般卷积核的大小比图像要小,所以我们需要拓展我们的kernel,让它和图像的大小一致,所以需要使用循环填充的方式将卷积核进行扩展,以便最后两个信号相乘时能够大小一致。
winograd
现在比较主流的移动端深度学习推理框架基本都采用了winograd算法来加速卷积。这个算法是在2016年CVPR的一篇paper中提出。
对于winograd算法,它的本质就是通过减少卷积运算中的乘法,来减少计算量。只用看一下论文中提出的一个卷积的例子就能大概明白:
假设待卷积的矩阵是:
卷积核是:
那么我们正常卷积的结果应该是:
计算如下:
可以看到正常卷积运算需要总共6次乘法,4次加法。
再来看winagrad怎么做:
可以看到结果转换到了m的域,通俗地说,就是我们把d核g用m的表达式表示了。那么为什么这样可以减少计算量呢,这得益于卷积运算中输入信号转换成的矩阵不是任意矩阵,其中有规律地分布着大量的重复元素。
比如
在神经网络的推理阶段,卷积核上的元素是固定的,因此g上的运算可以提前算好,预测阶段只需计算一次,可以忽略,所以一共所需的运算次数为d与m上的运算次数之和,即4次乘法和8次加法。
可以看到相对于正常卷积,乘法减少了两次,加法增加了4次。在计算机中,乘法是比加法慢很多的,所以这样可以实现卷积的加速。
winograd减少了乘法的次数,但是加法会相应增加,并且我们需要存储m域的转换矩阵,当卷积核的尺寸很大时,我们就需要考虑加法、m域的转换和转换矩阵的问题。