大数据预处理的方法

噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,不完整数据是指感兴趣的属性没有值,而不一致数据则是指数据内涵出现不一致情况(例如,作为关键字的同一部门编码出现不同值)。

数据清洗是指消除数据中存在的噪声及纠正其不一致的错误,数据集成是指将来自多个数据源的数据合并到一起构成一个完整的数据集,数据转换是指将一种格式的数据转换为另一种格式的数据,数据消减是指通过删除冗余特征或聚类消除多余数据。 不完整、有噪声和不一致对大数据来讲是非常普遍的情况。不完整数据的产生有多种原因。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容