数据清理

去除数据中的重复,并将剩余部分转换成标准、可接受格式的处理过程。

1、数据问题

数据缺失

通过手动或规则填充数据;

清除列;

无效数据

错误数据的探测和修正;

根据概率统计学发现数据值异常的记录,如姓名、地址、邮政编码等。

重复记录

合并/清除 规则。处理方式与特定的应用领域无关。

数据源内部或数据源之间数据的不一致性

可定义完整性约束来发现不一致性。也可通过分析数据发现关联,从而保持一致性。

数据迁移工具:通过归一化规则,如把gender字符串都转化成sex。

数据清理工具:使用领域特有知识(如邮件地址)对数据进行清理,通过语义分析、模糊匹配解决数据清理。

数据审计:通过扫描数据发现规律与联系。

2、数据问题的处理方法

1)研究数据、定义错误类型

单数据源?多数据源?

结构级错误?记录级错误?是否符合字段定义和约束?

2)搜索、识别错误

排序、比较、匹配等耗时的运算。

3)修正错误

依赖标准文件、数据字典、数理统计。


参考

http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容