1、训练集的数量不足
对于机器学习,训练样本要足够多;
2、训练集不具有代表性
训练集需要有能表征新的实例的特征,否则,算法的表现效率不高。
采样偏差:假设样本太小,则可能会有抽样噪声。假设样本量非常大,若使用的采样方法不正确依然可能造成训练集不具有代表性。
数据不匹配问题:验证集和测试集中的数据也需要具有代表性。若算法在验证集上效果不好,除了过拟合的原因,还可能因为数据不匹配。区分方法,重新分割训练集和验证集,使用部分来自训练集的数据作为验证集,重新用原模型训练删减后的训练集,并用于验证集上评估,若效果优说明不是过拟合的原因。
3、数据质量差
数据集中若大量存在噪声、离群值、数据缺失或偏差,则难以应用算法进行侦测。
4、无关特征
若数据集中存在大量无关特征,也会影响算法运行效果。
解决方法:
a. 特征选择:在现有特征中选择最有效的特征;
b. 特征获取:降维,或者结合现有的特征生成更有效的特征;
c. 构建特征:集合新数据构建新特征;
5、过拟合
模型过于复杂,对于适应训练集的样本和噪声。
解决方法:
a. 简化模型,使用较少参数或者减少特征数量或者约束模型(正则化,设置调优参数);
b. 收集更多的训练集;
c. 减少训练集中的噪声,包括修复偏差,移除离群值等。
6、欠拟合
模型过于简单,连训练集都难以拟合。
解决方法:
a. 选择更优的模型;
b. 特征工程。使用更优的特征去训练模型;
c. 减少模型的约束(e.g. 减少正则化的超参数等)。