神经元越多,表达模型越好
为了防止过拟合,增大regularzation
relu max(0, x)
leaky relu
maxout max(w1Tx+b1, w2Tx+b2)
ELU
vanish gradient problem
learning rate过大 会导致很多neuron挂掉
dead neuron-> leaky relu
relu 权值初始化
/2是因为假设高斯分布,max
batch normalization的好处 可以适应各种不同初始状态下的权值,在某个学习率下收敛更快
log(1/10) = 2.3 10 classes(sanity check, gradient check)