数据预处理

无量纲化:


常用的如下两种:

1、min-max标准化(Min-maxnormalization)

也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

其中max为样本数据的最大值,min为样本数据的最小值。


2. z-score标准化


最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,spss默认的标准化方法就是z-score标准化。

也叫标准差标准化,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。

经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:


缺失值处理:

常用的几种处理方法如下,根据不同的应用场景进行选择

1.直接删除带有缺失值的数据。

2.直接删除有大量缺失值的变量

3.对缺失值进行替换。

利用代表性的属性进行替换,比如众数、均值等,或者人为定义一个数据去代替缺失值的情况。

4.对缺失值进行赋值

赋值的方法有回归模型、决策树模型、贝叶斯定理等去预测缺失值的最近替代值,也就是把缺失数据所对应的变量当作目标变量,把其他的输入变量作为自变量,为每个需要进行缺失值赋值的字段分别建立预测模型。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 数据预处理一方面提高数据的质量,另一方面是要让数据更好的适应特定的挖掘工具。统计发现,在数据挖掘过程中,数据预处理...
    熊定坤阅读 10,212评论 0 4
  • 0x00 目标 学习目标有四个: 无量纲化:最值归一化、均值方差归一化及sklearn中的Scaler; 缺失值处...
    s0k0y阅读 5,142评论 0 1
  • 前提 在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执...
    神奇的考拉阅读 6,225评论 0 3
  • 机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。这个说法形象且深刻...
    3b899188980c阅读 8,491评论 0 3
  • 1.分别是:星币三;逆位圣杯国王;宝剑骑士 2.描述牌意: 星币三:在一个宫殿里,有两个人正在认真抬头问一个正在修...
    小花花小树树阅读 2,338评论 0 0

友情链接更多精彩内容