Tips for Deep Learning
- max pooling显然不能微分
Recipe of Deep Learning
image
- Do not always blame overfitting, it is not well trained sometime.
- 判断是否overfitting,要看在training data和testing data上的结果。
image
Vanishing Gradient Problem
sigmoid function会导致Vanishing Gradient Problem。
image
解决:Rectified Linear Unit (ReLU)。理由:计算快;生物上的理由;等同于无穷多的sigmoid叠加;解决梯度消失问题
Maxout
-
自动学习activation function,所以ReLU是maxout的special cases
image
image
image
image
maxout和max pooling本质上是一样的,所以maxout和max pooling的训练方法一样。
使用Nesterov动量的RMSProp算法
image
image
之前的grad对现在的grad也有一样程度的影响,越久远的grad,影响越小。
image
image
image
image
image
image
image