数据挖掘中的预处理

【数据清洗】
Part 1:缺失值处理

  1. 忽略元组
  2. 人工填写缺失值
  3. 使用一个全局常量填充缺失值:例如将缺失值用“Unknown”表示
  4. 使用属性的中心度量(mean or median):对于对称数据分布使用mean,秦些数据分布使用median。
  5. 使用与给定元组属同一类的所有样本mean或median:例如将顾客按credit_risk分类,则用具有相同信用风险的顾客平均收入替换income中的缺失值。若给定数据分布是倾斜的,则median是更好的选择。
  6. 使用最可能的值填充缺失值:可以使用regression、Bayes形式化方法的基于推理的工具或者decision tree分类。

Part 2:噪声数据的处理
<definition>噪声(noise):是被测量的变量随机误差或方差。
数据光滑技术:

  1. 分箱(binning):通过考查数据的近邻来光滑有序数据集。常见的:用箱均值光滑;用箱中位数光滑;用箱边界光滑。
  2. 回归(regression):用一个函数拟合数据来光滑数据。
  3. 离群点分析(outlier analysis):通过如聚类来检测离群点。

【数据集成】
Part 1:冗余和相关分析:
对于标称数据,我们使用卡方检验发现。对于数值属性,我们使用相关系数、协方差发现。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的...
    huihui7987阅读 1,215评论 0 0
  • (转自http://www.douban.com/group/topic/14820131/,转自人大论坛) 调整...
    f382b3d9bdb3阅读 10,842评论 0 8
  • 昨天晚上,确切的说应该是今天凌晨接近一点的时候,宿舍突然响起一阵敲门声。我从梦中惊醒,迷迷糊糊问是谁。大部分舍友都...
    南方笑佳人阅读 319评论 0 0
  • 昨天接到妈妈电话,说是妹妹的婆婆早上突然走了,听到消息先是震惊,本能说了句不会吧! 脑袋很自然把时间倒序到3个月前...
    WeddingLin大小姐阅读 220评论 0 0
  • 那时,那年,那岁月。 唯有不知,那时的花是否开放。 你心中的那朵花, 开了吗? 它,是灰,红,青,绿,还是 白呢?...
    梦归宿溪阅读 356评论 2 7