方差
这里有一个trade off。因为bias和variance也在相互影响。
正则化:有助于减少过拟合。
L1正则化使模型变得稀疏。(w中有很多0)
正则化参数lamda通过验证集来确定。
L2正则化也被称为“权重衰减”
正则化参数变大--->w变小(因为cost founction 变大了)。当z变小时,激活函数在0附近接近线性(以tanh为例)。故每一层神经网络接近线性。从而防止发生过拟合。
dropout:通过概率随机删除一些节点
inverted dropout:在保证减少节点的同时,保持a的期望不变
归一化:将x1和x2的方差都变为1.期望变为0:(可以更快速的训练模型)
梯度消失与爆炸:网络中,激活函数以指数增加或减少