1.DNN的反向传播

首先回顾深度神经网络（DNN）的反向传播

forward： $a^L=\sigma (z^L)=\sigma( w^La^{L-1}+b^L)$

Loss Function: $J=\frac{1}{2} ||a^L-y||^2$

backward:

w的梯度：

b的梯度：

令： $\delta^L=\frac{\partial J}{\partial z^L} =(a^L-y)\odot \sigma$

已知 $\delta^L$ ，推导上一层 $\delta^{L-1}$ ：

2.CNN的前向传播

2.1卷积层

(1)单通道（极简情况）

为了简单起见，设输入X为3* 3，单通道，卷积核K为2*2，输出Y为2*2，单通道。 $XconvK=Y$ ，即：

在计算时会转化为：

所以，卷积运算最终转化为矩阵运算。即X、K、Y变形在之后对应矩阵变为XC、KC、YC，则 $YC=XC\cdot KC$

Y和K只要reshape一下就可以了，但X需要特别处理，这个处理过程叫im2col（image to column），就是把卷积窗口中的数拉成一行，每行 $k^2$ 列，共（X.w-k+1)（X.h-k+1)行。

（2）多通道（实际情况）

下面是一张被广泛引用的说明图，图中显示的输入是3通道（3层，比如R、G、B共3个channel），输出是2通道（channel），于是总共有3*2=6个卷积核，每个核有4个元素，3*4=12，所以6个卷积核排成一个12*2的核矩阵，即为权重矩阵，把这6个KC的组合(权重矩阵)记为WC。

图中最底下一行表示两个矩阵乘积运算，就是卷积层的前向传播算法。实际编码时还会加上偏置，而且还要考虑Batchs。

如图中所示，如果输入的维度为 $B,H,W,C_{in}$ ，那么 $WC_{[k,k,C_{in},C_{out}]}\implies WC_{[k*k*C_{in},C_{out}]}$

上图中显示的乘法维度是： $X_{[B,(H-k+1)*(W-k+1),k*k*C_{in}]}\cdot WC_{[k*k*C_{in},C_{out}]}=Y_{[B,(H-k+1)*(W-k+1),C_{out}]}$

最后将 $Y_{[B,(H-k+1)*(W-k+1),C_{out}]}\implies reshpe\implies Y_{[B,(H-k+1),(W-k+1),C_{out}]}$ 即可

2.2池化层

池化（Pooling）：也称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。主要有：

Max Pooling：最大池化

Average Pooling：平均池化

3.CNN的反向传播

3.1池化层

池化层的反向传播比较容易理解，我们以最大池化举例，上图中，池化后的数字6对应于池化前的红色区域，实际上只有红色区域中最大值数字6对池化后的结果有影响，权重为1，而其它的数字对池化后的结果影响都为0。假设池化后数字6的位置误差为 $\delta$ 误差反向传播回去时，红色区域中最大值对应的位置误差即等于 $\delta$ ，而其它3个位置对应的 $\delta$ 误差为0。因此，在卷积神经网络最大池化前向传播时，不仅要记录区域的最大值，同时也要记录下来区域最大值的位置，方便误差的反向传播。