无标题文章

神经元越多,表达模型越好
为了防止过拟合,增大regularzation

relu max(0, x)
leaky relu
maxout max(w1Tx+b1, w2Tx+b2)
ELU

image.png

vanish gradient problem

learning rate过大 会导致很多neuron挂掉
dead neuron-> leaky relu

relu 权值初始化
/2是因为假设高斯分布,max


image.png

batch normalization的好处 可以适应各种不同初始状态下的权值,在某个学习率下收敛更快

log(1/10) = 2.3 10 classes(sanity check, gradient check)

image.png
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容