Tips for Deep Learning
- max pooling显然不能微分
Recipe of Deep Learning
- Do not always blame overfitting, it is not well trained sometime.
- 判断是否overfitting,要看在training data和testing data上的结果。
Vanishing Gradient Problem
sigmoid function会导致Vanishing Gradient Problem。
解决:Rectified Linear Unit (ReLU)。理由:计算快;生物上的理由;等同于无穷多的sigmoid叠加;解决梯度消失问题
Maxout
-
自动学习activation function,所以ReLU是maxout的special cases
maxout和max pooling本质上是一样的,所以maxout和max pooling的训练方法一样。
使用Nesterov动量的RMSProp算法
之前的grad对现在的grad也有一样程度的影响,越久远的grad,影响越小。