单个样本,注意W的维度为(4,3),4表示隐藏层单元个数,3表示单元输入变量的个数;x为列向量
屏幕快照 2017-11-06 下午6.49.14.png
m个样本
屏幕快照 2017-11-06 下午6.50.38.png
m个样本的矢量化
屏幕快照 2017-11-06 下午6.51.20.png
m个样本矢量化的解释
屏幕快照 2017-11-06 下午6.52.01.png
m个样本矢量化 完整表示
屏幕快照 2017-11-06 下午6.52.15.png
激活函数
屏幕快照 2017-11-06 下午7.15.13.png
sigmod不如tanh,一般用于二分类输出层
隐藏层一般选择Relu,Relu比sigmod或者tanh速度快是因为,斜率不会接近0(足够多的隐藏层单元数量,所以实际中不会出现Z为0的情况)
据说leaky Relu优于Relu