一、过拟合含义:
所谓过拟合(Overfitting):指一个假设在训练数据上能够获得比其他假设更好的拟合(训练误差小)但是在训练数据外的数据集上却不能很好的拟合数据(测试误差大)。此时模型的泛化能力较差,不利于推广。
二、过拟合产生的原因:
训练数据中存在噪音或者训练数据太少。
三、预防或克服过拟合措施:
1、 增大样本全面性和数量。
2、 控制模型的复杂度。集合Bagging和Boosting。
3、 正则化,使用L2范数(L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0)
4、 交叉验证,此方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重。
四、欠拟合含义:
即回归问题线性拟合较差,分类问题则分类较差。