数据预处理

一、引述

低质量的数据导致低质量的数据挖掘结果,因此需要对数据进行预处理,提高数据质量,提高数据挖掘结果。预处理技术包含了数据清理,数据归约,数据变换。

数据清理:清楚数据中的噪声,纠正不一致。数据归约:通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变化:数据归一化,将数据压缩到较小的区间,例如0.0-1.0

可以提高涉及距离度量的挖掘算法的准确率和效率

二、数据清理

数据一般是不完整的、有噪声的和不一致的,数据清理试图填补缺失的值,光滑噪声、识别离群点,并纠正数据的不一致性。

2.1 填补缺失值方法

(1)忽略元组,(2)使用属性的中心度量(如均值或中位数)填充缺失值,(3)使用与给定元组属于同一类的所有样本的属性均值或中位数,(4)使用全局常量填充缺失值,比如使用Unknown。

2.2 光滑噪声数据

噪声是被测量的变量的随机误差或方差

(1)分箱技术:分箱方法考虑相邻的值,是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化,增加粒度。按照取值的不同可划分为按箱平均值平滑、按箱中值平滑以及按箱边界值平滑。

假设有4 8 15 21 21 24 25 28 34等9个数,分为3箱

划分为等频的箱:箱1:4 8 15,箱2:21 21 24,箱3:25 28 34

箱均值光滑:箱1:9 9 9,箱2:22 22 22,箱3:29 29 29

箱边界光滑:箱1:4 415,箱2:21 21 24,箱3:25 25 34

(2)回归:用一个函数拟合数据来光滑数据

(3)离群点分析:通过聚类来检测离群点

(4)冗余和相关分析:若一个属性如果能由另一个或另一组属性“导出”,则这个属性就是冗余的。另外一些冗余则可以被相关分析检测到。标称数据:使用卡方检验;数值属性,使用相关系数。

标称数据的卡方检验:

对于标称数据,两个属性A和B之间的相关联系可以通过卡方检验,卡方统计检验假设A和B独立,检验基于显著水平,具有自由度(r-1)(c-1)。

卡方检验

自由度:(r-1)*(c-1);查询卡方分布表,得到在某置信水平下的拒绝假设的值。

数值数据的相关系数

对于数值数据,我们可以通过计算属性A和B的相关系数,也叫Pearson相关系数,估计两个属性的相关度

相关系数

若r大于0,则A和B是正相关,意味着A值随B值的增加而增加。该值越大,相关性越强,表明A和B,则可以说明A和B这两属性冗余。如果r等于0,说明A和B是独立的。如果r小于0,说明A和B是负相关,一个值随着另一个减少而增加,意味这这个属性是阻止另外一个属性出现的。

数值数据的协方差、相关系数

协方差和方差是两个类似的度量,评估两个属性如何一起变化。A和B的协方差定义为:

协方差

若A和B独立,即不具有相关性,则E(AB)=E(A)E(B),则cov(A,B)=0。若cov(A,B)=0,则说明A和B不相关,不能说明独立

2.3 数据规约

得到数据的规约表示,而使得信息内容的损失最小化,数据规约方法包括维规约、数量规约、数据压缩。

1 维规约:减少所考虑的属性的个数,方法包括小波变换、主成份分析(PCA)、属性子集选择和特征构造。小波变换合适于高维数据,主成份分析适合于稀释数据。属性子集选择通常使用决策树。属性构造可以帮助提高准确性和对高维数据结构的理解。

2 数量规约:使用参数或非参数模型,得到原数据的较小表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型,非参数模型包括直方图、聚类、抽样。抽样包括无放回的简单随机抽样,有放回的简单随机抽样,簇抽样,分层抽样

3 数据压缩:使用变换,得到元数据的规约或压缩表示,如果原数据可以有压缩后的数据重构,而不损失任何信息,则数据压缩是无损的,否则就是有损的。

2.4 数据变换

将数据变换成统一形式,使得挖掘过程可能更有效,挖掘的模式更容易理解。

数据变换策略:

1 光滑:去掉数据中的噪声,包括分箱、回归、聚类

2 属性构造:由给定的属性构造新的属性并添加到属性集中

3 聚集:对数据进行汇总或聚集

4 规范化:把属性数据按比例进行缩放

5 离散化:数值属性的原始值用区间标签或概念标签替换

6 由标称数据产生概念分层:属性如street泛化到较高的概念层如city

2.4.1 最小-最大规范化

最大最小规范化

如income的最大最小是【200,50】,映射到区间【0,1】中,某个income值150:(150-50)/(200-50)(1-0)+0=2/3

2.4.2 z分数规范化

z-score规范化

假设incom的均值和标准差是54和16,那么值73.6的被转换为(73.6-54)/16=1.225

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • 前提 在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执...
    神奇的考拉阅读 1,954评论 0 3
  • 1、引言 数据预处理的主要任务如下:(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性(2)...
    文哥的学习日记阅读 6,653评论 0 11
  • 数据预处理是指在对数据进行数据挖掘之前,先对原始数据进行必要的清洗、集成、转换、离散和规约等一系列的处理工...
    Always_6778阅读 2,003评论 0 2
  • 改革开放让一些原本遥不可及的新东西很快普及,更新换代的速度快得惊人,原来橘黄色的白炽灯就点亮全世界的时代早已过去,...
    补拙莫如勤LV阅读 211评论 0 0
  • “明月几时有,把酒问青天,不知天上宫阙,今夕是何年……” 苏轼的这首千古佳作《水调歌头》是1076年在密州...
    鲁瑜阅读 311评论 0 0