过拟合,欠拟合与模型的容量息息相关。模拟的容量指其拟合数据的能力,容量低的模型难以拟合训练,出现欠拟合,容量高的模型则过拟合。
数据和模型容量不匹配,是过拟合出现的原因。那么为了解决过拟合,一是从数据角度:增加数据来源,或使用data augmentation的一些方法扩充数据。
从增加模型容量角度可以做的改变就更多了。一种是选择假设空间(hypothesis space)即改变学习算法的函数集,如一阶转高阶,改变模型的选择;或者使用正则化项控制算法的性能,降低泛化误差。在深度学习中,对于深度神经网络,还可以使用减少网络层数,神经元个数,缩短训练时间,增加(数据,权值,输出)的噪声, 使用dropout随机抛弃掉一些神经元。
另一种思路是通过设置验证集或交叉验证或者使用多模型集成学习(bagging, boosting),来控制学习算法的超参数,所谓超参数,如模型的阶数,权重衰减率等,如果在训练集上训练超参数,这些超参数总是趋向最大可能的拟合模型,所以将数据分成两个不相交子集,一个用于训练,一个用于验证。