1/过拟合的原因:
(1)数据问题:数据量太少,不能抽象出全量特征
(2)模型问题:模型的参数过多,模型参数过大 (使得模型不够光滑)
(3)算法问题:模型的参数取值差异过大 (也使得模型不够光滑)
2/深层神经网络如何防止过拟合:
(1)L1,L2正则化(多数情况下使用L2正则):
降低模型参数的权重,使得模型的参数不至于过大,从而使得模型偏向于光滑
(2)dropout方法(一种训练技巧)
dropout通过随机缺失,可以防止模型参数过多,同时也可以降低模型参数的权重,另外随机失活相当于产生多个不同的神经网络,从而减少了方差
(3)early stop:
如何做:首先将训练数据划分为训练集和验证集(划分比例为2:1); 在训练集上进行训练,并且在验证集上获取测试结果(比如每隔5个epoch测试一下),随着epoch的增加,如果在验证集上发现测试误差上升,则停止训练;最后将停止之后的权重作为网络的最终参数。
(4)扩增训练数据集
3/训练和测试集合的特征归一化:
为何需要进行特征归一化? 为了加快训练的速度,如下图: