预告
1.两层神经网络的计算表示和矩阵化表示
2.激活函数和它的导数,神经网络的梯度下降以及反向传播
3.随机的初始化
1.两层神经网络的计算表示和矩阵化表示
Screen Shot 2017-12-03 at 6.33.50 PM.png
Screen Shot 2017-12-03 at 6.36.30 PM.png
Screen Shot 2017-12-03 at 6.36.57 PM.png
Screen Shot 2017-12-03 at 6.37.47 PM.png
Screen Shot 2017-12-03 at 6.39.39 PM.png
Screen Shot 2017-12-03 at 6.40.51 PM.png
Screen Shot 2017-12-03 at 6.42.24 PM.png
Screen Shot 2017-12-03 at 7.17.12 PM.png
Screen Shot 2017-12-03 at 7.34.04 PM.png
Screen Shot 2017-12-03 at 7.34.32 PM.png
2.激活函数和它的导数,神经网络的梯度下降以及反向传播
我们常用的激活函数:
sigmoid(不是二分类问题不要使用它)
tanh
relu
leakyRelu
为什么要使用非线性的激活函数?因为如果只用线性的函数,也就是说identity函数来输出的话,不管训练多少层的神经网络到最后仍然只是一个线性的模型。很多问题用它绝对不足以描述的。
sigmoid和tanh的缺点是在数据十分小或者十分大的时候,导数太小,太接近于0,所以更新w的学习速率太慢,梯度下降太慢。
所以目前Relu是很多时候的最佳选择。当然一个问题在实验以前是很难确定哪个方案更好的(什么激活函数,多少个Hiddenlayer,多少个节点)。
Screen Shot 2017-12-03 at 8.02.52 PM.png
Screen Shot 2017-12-03 at 8.03.15 PM.png
Screen Shot 2017-12-03 at 8.03.33 PM.png
Screen Shot 2017-12-03 at 7.57.59 PM.png
反向传播:
Screen Shot 2017-12-04 at 9.04.29 AM.png
Screen Shot 2017-12-04 at 9.08.43 AM.png
Screen Shot 2017-12-04 at 9.10.19 AM.png
Screen Shot 2017-12-04 at 9.06.44 AM.png
Screen Shot 2017-12-04 at 9.11.29 AM.png
3.随机初始化
Screen Shot 2017-12-04 at 9.27.59 AM.png
Screen Shot 2017-12-04 at 9.31.20 AM.png