Tips for Deep Learning

Tips for Deep Learning

  • max pooling显然不能微分

Recipe of Deep Learning

image
  • Do not always blame overfitting, it is not well trained sometime.
  • 判断是否overfitting,要看在training data和testing data上的结果。
image

Vanishing Gradient Problem

sigmoid function会导致Vanishing Gradient Problem。


image

解决:Rectified Linear Unit (ReLU)。理由:计算快;生物上的理由;等同于无穷多的sigmoid叠加;解决梯度消失问题

Maxout

  • 自动学习activation function,所以ReLU是maxout的special cases


    image
image
image
image

maxout和max pooling本质上是一样的,所以maxout和max pooling的训练方法一样。

使用Nesterov动量的RMSProp算法

image
image

之前的grad对现在的grad也有一样程度的影响,越久远的grad,影响越小。

image
image
image
image
image
image
image
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容