数据可能存在的待解决问题

对于机器学习，训练样本要足够多；

训练集需要有能表征新的实例的特征，否则，算法的表现效率不高。

采样偏差：假设样本太小，则可能会有抽样噪声。假设样本量非常大，若使用的采样方法不正确依然可能造成训练集不具有代表性。

数据不匹配问题：验证集和测试集中的数据也需要具有代表性。若算法在验证集上效果不好，除了过拟合的原因，还可能因为数据不匹配。区分方法，重新分割训练集和验证集，使用部分来自训练集的数据作为验证集，重新用原模型训练删减后的训练集，并用于验证集上评估，若效果优说明不是过拟合的原因。

数据集中若大量存在噪声、离群值、数据缺失或偏差，则难以应用算法进行侦测。

若数据集中存在大量无关特征，也会影响算法运行效果。

解决方法：

a. 特征选择：在现有特征中选择最有效的特征；

b. 特征获取：降维，或者结合现有的特征生成更有效的特征；

c. 构建特征：集合新数据构建新特征；

模型过于复杂，对于适应训练集的样本和噪声。

解决方法：

a. 简化模型，使用较少参数或者减少特征数量或者约束模型(正则化，设置调优参数)；

b. 收集更多的训练集；

c. 减少训练集中的噪声，包括修复偏差，移除离群值等。

模型过于简单，连训练集都难以拟合。

解决方法：

a. 选择更优的模型；

b. 特征工程。使用更优的特征去训练模型；

c. 减少模型的约束(e.g. 减少正则化的超参数等)。

最后编辑于：2023.10.31 11:20:58

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。