一些提升DL的performance的方法

作者:hooly
微信公号:一口袋星光


image.png

首先我们需要确认,是在training data上的performance差还是在testing data上的 performance 差,从而选择合适的方法。

image.png

在training data上的performance差怎么办?

New activation function

我们发现,在同一时刻,越靠后的网络层的学习速率越快,而越靠前的网络层的学习速率反而越慢!我们可以有一个直观的印象,error项在向后传播的过程中,逐渐变小,使得越靠前的网络层的学习速率越来越低,这种现象被称为vanishing gradient problem。

image.png

解决这个问题,我们可以改变activation function

ReLU

image.png

Maxout

image.png

Adaptive Learning Rate

两种方法

RMSProp

image.png

Momentum

image.png

在testing data上的performance差怎么办?

Early Stopping

image.png

我们想要的是 在testing data上的效果最好,也就是loss最小。如果在Validation set你的loss已经不再下降,你就应该停下来。

Regularization

image.png

我们修改了loss function,希望我们的参数越小越好。

Dropout

image.png
  1. testing的时候是不dropout的
  2. If the dropout rate at training is p%,all the weights times 1-p%
  3. Assume that the dropout rate is 50%.If a weight w = 1 by training, set 𝑤 = 0.5 for testing.

作者:hooly
微信公号:一口袋星光
我会在微信公号上持续更新我的文章,你来讨论我很欢迎。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。