在数据分析工作中,面对收集而来的数据,数据清洗是首要环节。而异常值处理是其中的一个重要部分。下面就给大家介绍一下如何处理数据中的异常值。
一、异常值判断
何为异常值?
异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。异常值分析就是要将这些离群点找出来,然后进行分析。
异常值判断
在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:
(1)数字超过某个标准值
这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。
比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。
又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。
(2)数据大于±3标准差
3σ 原则是在数据服从正态分布的时候用的比较多,在这种情况下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。
在数据处理的时候,按照正态分布的性质,三个标准差以外的数据都可以被看作是错误的数据从而排除掉。
二、异常值的鉴别
(1)箱盒图
箱盒图很适合鉴别异常值,具体的判断标准是计算出数据中的最小估计值和最大估计值。如果数据数据超过这一范围,说明该值可能为异常值。箱盒图会自动标出此范围,异常值则用圆圈表示。
SPSSAU【可视化】--【箱线图】可完成此操作。
(2)描述分析
描述分析可以得到数据的最大值、最小值、四分位值等。通过描述分析查看出数据中有无极端值,并将极端值剔除。不过描述分析没有箱盒图展现的直观,一般可以初步筛查时使用。
SPSSAU【通用方法】--【描述】可完成此操作。
(3)散点图
散点图通过展示两组数据的位置关系,可以清晰直观地看出哪些值是离群值。异常值会改变数据间的关系,通常在研究数据关系,如进行回归分析前,都会先做散点图观察数据中是否存在异常值。
SPSSAU【可视化】--【散点图】可完成此操作。
三、异常值处理
异常值的处理分为三种:设为缺失值、填补、不处理。
(1)缺失
设置为Null值;此类处理最简单,而且绝大多数情况下均使用此类处理;直接将异常值“干掉”,相当于没有该异常值。如果异常值不多时建议使用此类方法。
(2)填补
如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数和随机数、填补数字0共五种填补方式。
(3)不处理
一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。
四、异常值操作
SPSSAU操作
判断有异常值后可以通过SPSSAU【数据处理】--【异常值】进行处理。
此处可以对缺失值进行填补或设为Null,即空值。也可以对异常值进行处理。设置标准由分析人员自行设定,然后点击“确认处理”按钮即可生效。
注意事项
1、异常值带微弱主观性,判定没有固定标准,一些异常值也可能同时包含有用的信息,是否需要剔除,应由分析人员自行判断。
2、异常值一旦处理则无法恢复,建议先备份数据再操作。