深度学习之卷积层运算矩阵化实现
1、卷积层的基本运算是卷积核组和输入特征图的局部区域做内积,即把卷积核组和输入特征图的局部区域均拉伸为向量,然后对这两个向量做内积。矩阵乘法也是两个向量做内积。
如果我们把输入特征图和所有卷积核组分别转化为矩阵,则卷积层的运算就变成两个巨大矩阵的乘法。
2、python code:
part 1:构建输入特征图矩阵,即将输入特征图这个四维矩阵转换为一个巨大的二维矩阵
import numpy as np
filter_size = 3#滤波器尺寸
filer_size2 = filter_size*filter_size
stride = 1#步长
padding = (filter_size-1)/2#same卷积需要填充0的尺寸
(batch,in_height,in_width,in_depth) = (8,32,48,16)#输入特征图的尺寸
in_data = np.random.randn(batch,in_height,in_width,in_depth)#输入特征图
out_height = (in_height-filter_size+2*padding)/stride+1#卷积之后的输出特征图尺寸
out_width = (in_width-filter_size+2*padding)/stride+1
out_size = out_height*out_width
matric_data = np.zeros((out_size*batch,filter_size2*in_depth))#(1)
padding_data = np.zeros((batch,in_height+2*padding,in_width+2*padding,in_depth))#构建padding
padding_data [:,padding:-padding,padding:-padding,:] = in_data
height_ef = padding_data.shape[1]-filter_size+1#卷积核在padding数据上可以滑动的最大位置
width_ef = padding_data.shape[2]-filter_size+1
for i_batch in range(batch):#获取输入特征图的每一个batch
i_batch_size = i_batch*out_size#计算这个batch的3D特征图在矩阵中的起始行数
for i_h,i_height in zip(range(out_height),range(0,height_ef,stride)):#(2)
i_height_size = i_batch_size+i_h*out_width
for i_w,i_width in zip(range(out_width),range(0,width_ef,stride)):
matric_data[i_height_size+i_w,:] = padding_data[i_batch,i_height:i_height+filter_size
,i_width:i_width+filter,:].reval()#将每一个卷积核大小的3D特征图块拉直成一条向量并赋值给matric_data的一行
(1)matric_data为输入特征图的矩阵化形式,这个矩阵的行数代表所有需要计算的输入特征图的局部区域总数,矩阵的列数为卷积核与输入特征图的局部区域点乘的数量;
(2)获取在矩阵行数的位置以及与其对应在padding上的坐标,这里其实就是以卷积核大小为尺寸的3D特征图块为基本单位的提取数据;
到此我们就完成了对输入特征图的矩阵化操作,其实这个矩阵就是将数据变换一下位置,矩阵的行数就等于特征图块与卷积核需要点乘的次数,矩阵的列数就是特征图块的拉直长度。
part 2:
将卷积核组拉伸为列向量,与数据矩阵matric_data相乘。在实际操作时,并不需要事先生成四维的卷积核,直接生成二维卷积核矩阵即可。
out_depth = 22#输出特征图的数量
weights = 0.01 * np.random.randn(filter_size2 * in_depth,out_depth)#卷积核参数矩阵化
bias = np.zeros((1,out_depth))#偏置
filter_data = np.dot(matric_data,weights)+bias#输入数据与卷积核参数点乘
filter_data = np.maximum(0,filter_data)#ReLU激活函数
part3
把filter_data的每一行数据转变为输出4D输出特征图对应位置的深度维度的特征数据。
out_data = np.zeros(batch,out_height,out_width,out_depth)#分配4D特征图存储空间
for i_batch in range(batch):#遍历每个3D特征图
i_batch_size = i_batch*out_size#计算每个3D特征图的起始位置
for i_height in range(out_height):#遍历每一行
i_height_size = i_batch_size + i_height*out_width#计算第i_height行的起始位置
for i_width in range(out_width):#遍历每一列
out_data[i_batch,i_height,i_width,:] = filter_data[i_height_size+i_width,:]#(3)
(3)把filter_data对应的行向量赋值于输出4D特征对应的深度维度。