2. SPSS基本使用:数据清洗

一、数据清洗的总体步骤

image.png

打开telco.sav文件


image.png

看下数据清洗的步骤,要拷贝(因为这里是样本,所以不用做这一步),所以直接做第二步创建唯一ID


image.png

这一步创建了唯一ID,点击转换按钮---计算变量-目标变量填写ID--选择函数$casenum点击确定就可以了
image.png

接下来我们要生成数据质量报告,可以用分析按钮-描述统计-频率来做,选取除了ID外的所有字段(因为ID不需要检查),点击确定,生成结果。
image.png

可以看到,有四个字段有缺失值,接下来每个变量都要仔细的看


image.png

zone这里每个zone都是有效的
image.png

age这个字段变量都在合理范围,年龄分布从18到77岁,但是如果这里突然出现
一个100岁的,或者11岁的,我们就要看看,回顾下数据采集过程,这个数据是否错误,或者是异常。。这个地方就是我们需要注意的点

二、错误值处理原理和实操

image.png

以年龄字段为例,如果有一个值是118,那我们可以通常认为是手抖的缘故输入错误,其实年龄是18岁(改为相似的),如果找不到相似的,找原始数据库去复合,实在找不到就把这一条数据删掉

三、异常值处理原理

image.png

方法论如上,通常用标准分法或者四分位法判断,通常不会删除掉空值,因为获取数据很容易,函数法也很少用,因为用模型去判断只有再很理想的情况下才行。比较常用的是最值或者均值,比如区间在[1,100],有个值是0.8,我们可以用1代表0.8

四、缺失值处理原理

image.png

image.png

变成指示变量- 有些时候受访者不会告诉你工资,所以收入这个字段很难回答全,但是这个字段有很宝贵,即使只有30%的人愿意回答,我们还是想保留,所以把回答的变成0,不回答的为1,作为指示变量。
自动填补法
针对分类变量
1)用特殊的数字,比如99来代表缺失,只是指示作用,99最后不会带入计算
2)如果性别没填,假设男性70%,女性30%,那么我们可以把性别填上男性
3)这里其实是大数据,比如用户很喜欢买包,性别可以判断为女,现在互联网算标签,就是这样子
针对连续变量
1)很少用众数,因为连续变量值很多,众数的概率很少,以年龄字段为例,众数是33,但是有1000个人,你取33概率很小
2)均值是更加常用的手段
4)建模很少用,因为很麻烦。总共两个人缺失,还去建模,太花时间,模型准确率还不高。

五、异常值和缺失值处理(实操)

异常值处理
image.png

点击分析按钮-描述统计-描述-添加收入income字段进行标准分法的处理(3σ)-勾选标准化值另存为变量(Z值)-点击确定


image.png

标准化后看到了多了一个字段,zincome,是标准化后的数据,相应的z大于3就是异常值,大于5是极端值,建模型的时候可以删除掉,先删大于5,效果不好继续删掉异常值(>3)
以上是异常值的处理

缺失值处理
image.png

点击转换-替换缺失值-选择要填补缺失值的字段(这里我们选择年龄,随便删掉几个数据,这个字段就缺失了,可以做演示用)。可以发现有多个替换缺失值的选项:

  1. 序列平均值: 整列的平均值去补充该列
  2. 临近点平均值,中位数:可以选择空缺数据旁边几个值的平均数,但是有个前提,必须有时间序列才行,否则的话,把其他字段进行排序,临近数据就会发生改变。
  3. 线性差值:就是线性回归来拟合,生产一条线,把数值放在拟合的线上就可以。


    image.png
  4. 第四种方法就是相似值法,比如我们可以认为和缺失值比教育程度一致,性别一致的就是相似值,把所有相似值的平均数填入缺失空格。
    我们点击数据-选择个案-点击如果条件满足-点击如果-弹出以下界面


    image.png

    假定缺失值的教育水平=3,性别=1,所以我们这里条件也这么写


    image.png

    可以看到相似条件的数据没有被线划掉
    image.png

    我们把没有被划掉的数据做描述统计-描述(如上图)
    image.png

    生成描述结果如上,平均值是40.77,我们可以把这个值作为缺失值。但是其实我们仔细观察,可以发现,我们这样选相似 值,最小值是20,最大值是76,分布范围很大,其实并不怎么相似,所以我们可以继续优化,选择其他变量,或者更多的变量来选定相似值。在报告中我们也可以把我们用了哪些字段作为相似值判定的标准提出来,作为依据。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容