卷积网络
这里讨论通过卷积的方式表达CNN反向传播
池化层
假设我们的池化区域大小是2x2,并且下一层的梯度为:

如果是MAX,假设我们之前在前向传播时记录的最大值位置分别是左上,右下,右上,左下,则还原后的梯度为:

如果是AVG,则上一层的梯度为:

卷积层
前向传播

反向传播

此处卷积的padding为"full"
简单证明



可得



这上面9个式子其实可以用一个矩阵卷积的形式表示,即

卷积核/偏置
卷积核梯度

证明的方法与上面类似,偏置梯度为对每个通道的梯度求和

循环网络
RNN

从时间轴的角度看(从左至右),如果循环次数特别多,意味着网络太深,梯度难以传回。LSTM通过改进隐藏层结构来解决这个问题。
LSTM

前向传播

输入门和输入

遗忘门

细胞状态

输出和输出门

标签预测
反向传播

这里假设L是均方损失

为什么LSTM能解决梯度爆炸和消失的问题
https://www.zhihu.com/question/34878706
参考
刘建平的博客园