1.删除冗余重复数据;
2.修复结构性错误(类别名称之类的);
3.管理不需要的离群值(很离谱不真实的数据);
4.缺失数据的处理:
缺失数据类别:连续变量或特征、分类变量或特征;
处理方法为替换缺失值/拟合缺失值/虚拟变量/删除:(1)均值、中值、众数替换(2)随机样本估算(3)用新特性获取NAN值(4)使用KNN填充
数据清理在机器学习中的优势:
改进的模型性能:数据清理通过删除错误、不一致和不相关的数据来帮助提高ML模型的性能,这可以帮助模型更好地从数据中学习。
提高准确性:数据清理有助于确保数据准确、一致且没有错误,这有助于提高ML模型的准确性。
更好地表示数据:数据清理允许将数据转换为更好地表示数据中的底层关系和模式的格式,从而使ML模型更容易从数据中学习。
机器学习中数据清理的缺点:
耗时:数据清理可能是一项耗时的任务,尤其是对于大型且复杂的数据集。
容易出错:数据清理很容易出错,因为它涉及数据的转换和清理,这可能会导致重要信息丢失或引入新的错误。
对数据的了解有限:数据清理可能会导致对数据的了解有限,因为转换后的数据可能不能代表数据中的底层关系和模式。