其实好多细心的小伙伴都发现了,我们在进行部分常规统计操作前,很多限制条件都是规定数据必须满足正态分布,那今天我将介绍几种SPSS中检验数据正态性的方法。
一、S-W(夏皮洛-威尔克)和K-S(柯尔莫哥洛夫-斯米尔诺夫)正态性检验
我们拿之前学过的独立样本t检验的例3-7举例。
S-W检验和K-S检验结果都是P>0.05,因为两个检验H0都是:两组数据满足正态分布,所以P>0.05是我们所需要的。注:在解读P值前,一定要先知道零假设H0和备择假设H1代表的是什么,否则会对P值的解读出现偏差。
关于如何选择K-S还是S-W检验呢?
主要就是样本量,大样本选择K-S检验;小样本选择S-W检验。
对于样本量大小的定义,众说纷纭,甚至对于某些数据,K-S和S-W给出截然不同的两种结果。我个人的经验是:样本量>4000在正态性检验里算大样本,只要低于4000,一律选择S-W检验。(个人经验,仅供参考)
一、图形法
一、直方图-正态曲线
依旧之前的操作,只是在图形按钮处有所勾选。
通过构建带正态曲线的直方图,我们可以看出两组数据的大致分布。直方图显示,两组数据确实基本符合正态曲线的走势。
图形法的最重要的意义就是辅助正态性检验,共同下达是否满足正态性的结论。
因为对于一般的统计分析工作,对于数据的正态性要求并不是吹毛求疵,一般都会有一定的耐受性。
如何定义耐受性呢?
正态性检验是软件从公式计算层面,告诉研究者数据的情况,这就让研究者无法确定所谓的近似正态分布的程度是多少,这个概念很模糊,多近似才是近似呢?这就给初学者造成了不少困扰。
近似正态分布就是要让研究者结合图形法,通过主观观测,人为地去定义。
当然仅仅通过直方图是不够的,还需要接下来几个图形共同判定。
二、Q-Q图和去趋势的Q-Q图
关于Q-Q图的解读也不难,这里我简单说一下其原理。(其实也不用懂,不感兴趣的小伙伴直接跳过就行)
(扩展)
1、我们将一组数据表示为下图这样,并提出问题:这一序列是否服从正态分布。
2、先将该序列重新排序
3、再通过专用公式,计算Q值,随之计算t值查表找到对应的Q‘值
4、将Q-Q’作散点图,与y=x进行比较,如果散点基本在直线上幅度不是很大,我们就认为该数据满足正态分布。
这就是Q-Q'图的大致计算过程,其实原理也不难,就是将数据的某分位数点Q和理论下的Q共同构成散点图,如果它是一条直线,那就满足正态分布。
(接正文)
两组数据的Q-Q图基本都在一条直线上,上下波动幅度也不大,我们就可以认定该两组数据具有正态性。
去趋势Q-Q图:
关于去趋势Q-Q图的原理,本人的理解并不准确,在此就不误导大众了。因为可看可不看,毕竟还有其他图可以参考。对于其解读,我个人的经验就是看有没有明显的规律性,比如典型的U型、喇叭型等,没有就证明具有正态性,大家也可以简单这么理解。(仅供参考,如有高见,欢迎探讨)
二、P-P图和去趋势的P-P图
P-P图的图形和Q-Q图差不多,解读起来也差不多。不一样的是原理不同,P是指累积概率。如果数据正态,那么数据的累积比例与正态分布累积比例基本保持一致。分别计算出数据累积比例,和假定正态时的数据分布累积比例;并且将实际数据累积比例作为X轴,将对应正态分布累积比例作为Y轴,作散点图。
解读参考Q-Q图,在此不赘述。
三、偏度和偏度
1、偏度:描述数据分布不对称的方向和程度。
当偏度≈0时,可认为分布是对称的,服从正态分布。如图2
当偏度>0时,分布右偏,峰尖在左,拖尾在右,也称为正偏态。如图3
当偏度<0时,分布左偏,峰尖在右,拖尾在左,也称为负偏态。如图1
注:大家应该也注意到了,所谓的左偏还是右偏,跟峰尖是相反的,看的是拖尾,表明数据在拖尾处更多。
2、峰度:描述数据分布的陡缓程度。
当峰度≈0时,分布属于常峰态,服从正态分布。
当峰度>0时,分布属于尖峰态。
当峰度<0时,分布属于低峰态。
由于案例是独立样本t检验,是有分组依据的,所以在此之前先拆分数据。
频率和描述都可以求得偏度和峰度,此处选择频率,对于描述请各位自行练习。
计算:
用偏度和峰度来看数据的正态性需要进行后续的计算,也就是Z评分。Z=偏度or峰度/标准误,在α=0.05的检验水平下,如果Z在±1.96之间,则可以说明数据服从正态分布。
阿卡波糖组:偏度=-0.619,Z=-0.619/0.512≈-1.209;峰度=0.631,Z=0.631/0.992≈0.636。
拜糖平组:偏度=0.036,Z=0.036/0.0.512≈0.070;峰度=-0.586,Z=-0.586/0.992≈0.591。
通过结果可以看出,数据是服从正态分布的。并且结合其他检验方法,综合判定这两组数据服从正态分布,可以进行独立样本t检验。
关于正态性检验目前就学习完了,其实并不是说一定要完成这么多步才能确定数据的正态性。一般来讲,通过S-W检验或者K-S检验再配合直方图和Q-Q图就基本可以判定了,这里说全一点是为了方便大家学习。拜拜。