使用数据挖掘帮助决定-数据预处理

数据探索和预处理。

注意异常值

注意空值。

把绝对值替换成ratio

计算变量随时间的变化

变量之间的先行组合。

对变量进行操作,取log,取根号

离散变量数值化。

修改单位,

年龄离散化

经纬度坐标转换

创建变量

出生日期可以转化年龄。

均值,方差,最大,最小,最近的频率

使用频率,

删除变量

删除共线性变量,在线性模型中要去除共线性

删除对于结果不想关的变量

降维PCA.

变量类型

1.连续型变量

通过分桶变为离散值

2.离散型变量

变量检测

1.空值检测,异常值检测

2.年龄,人口收入的数据的量级

3.连续变量离散化

1.取1%,10%,25%,50%,75%,90% 99%分位数,通常1%和99%分位数都会被排除,由于太极端。

2.确定变量没有起相同。

3.年龄这些值有范围,需要确定树脂是否在一定范围

Table 3.2 Contingency table. (frequency in thousands)

<20 years

20–64 years

!65 years

TOTAL

TOTAL

15 150

34 250

8 858

58 258

DETECTION OF RARE OR MISSING VALUES 45

Single  Married  Widowed  Divorced 

15 144  100%  6  0%  0  0%  0  0% 

10 935  32%  20 048  59%  844  2%  2 423  7% 

696  8%  4 755  54%  3 079  35%  328  4% 

26 775  46%  24 809  43%  3 923  7%  2 751  5% 

确定缺失原因

是由于偶然缺失还是不完全的观测。如果是不完全的观测,则会导致分析的偏差。

1.不使用该变量,或着用一个相似的变量代替

2.用统计方法填充该值,均值,或中位数,回归,聚类,活用模型预测

3.把缺失值当成一列变量。

当缺失的比例超过15%的时候不应该使用2,3方法。

检测异常值

异常值不一定是极端值,极端值也不一定是异常值。要充分理解数据才能对此进行区分。

是变量的原因还是样本的原因

异常值通常出现的情况

1.固有的日期,不可能出现,

2.bussiness 出现为private

3.单位不统一。

4.性别有多种值

5.职业从业不更新,一直显示学生

6.电话号码格式不正确

检测异常值的方法

1删除这个观测,查看是分布

2把该变量删除,查看该变量是否需要放进去。

3.把这个变量的异常值换成正常值。

1.如果该异常值的范围不在正常范围,应删除

2.如果这个变量会导致结果变差,则应该删除该变量

3.如果该变量只有几个异常值,那应该想办法消除异常值的影响

4.如果变量有大量不正确的值,那么应该避免使用该变量

5.如果该变量特征很强,而且包含少量的异常值,可以把他们替换为空值,然后单独作为一个变量

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容

  • 前提 在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执...
    神奇的考拉阅读 1,977评论 0 3
  • 一、项目git地址:   https://github.com/XieXiePro/MockLocation[ht...
    Haraway阅读 6,376评论 1 5
  • 最近小宝同学搬来我们小区了,而且离得很近,这下终于找着玩伴了,这不今晚上又玩到一块了。 吃过晚饭,同学娘俩已在...
    商望芳阅读 166评论 0 0
  • 为了获得力量的佐助不得不离开村子,看着一次一次受伤却依旧不放弃追逐他的鸣人。佐助的心里充满茫然。 好像…有什么东...
    嘉爱佐鸣唯爱鼬神阅读 1,795评论 0 2
  • 打卡日期:2018年8月31日 打卡累计天数:26/30 #宣言(父母的高度决定孩子的起点)# 孩子第一个30天目...
    霞_4d30阅读 153评论 0 0