数据可能存在的待解决问题

1、训练集的数量不足

对于机器学习,训练样本要足够多;

2、训练集不具有代表性

训练集需要有能表征新的实例的特征,否则,算法的表现效率不高。

采样偏差:假设样本太小,则可能会有抽样噪声。假设样本量非常大,若使用的采样方法不正确依然可能造成训练集不具有代表性。

数据不匹配问题:验证集和测试集中的数据也需要具有代表性。若算法在验证集上效果不好,除了过拟合的原因,还可能因为数据不匹配。区分方法,重新分割训练集和验证集,使用部分来自训练集的数据作为验证集,重新用原模型训练删减后的训练集,并用于验证集上评估,若效果优说明不是过拟合的原因。

3、数据质量差

数据集中若大量存在噪声、离群值、数据缺失或偏差,则难以应用算法进行侦测。

4、无关特征

若数据集中存在大量无关特征,也会影响算法运行效果。

解决方法:

a. 特征选择:在现有特征中选择最有效的特征;

b. 特征获取:降维,或者结合现有的特征生成更有效的特征;

c. 构建特征:集合新数据构建新特征;

5、过拟合

模型过于复杂,对于适应训练集的样本和噪声。

解决方法:

a. 简化模型,使用较少参数或者减少特征数量或者约束模型(正则化,设置调优参数);

b. 收集更多的训练集;

c. 减少训练集中的噪声,包括修复偏差,移除离群值等。

6、欠拟合

模型过于简单,连训练集都难以拟合。

解决方法:

a. 选择更优的模型;

b. 特征工程。使用更优的特征去训练模型;

c. 减少模型的约束(e.g. 减少正则化的超参数等)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容