在实际研究中,很多时候都需要数据满足正态分布才可以。比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正态分布性。也比如说方差分析,其有一个潜在的前提假定即因变量Y需要满足正态分布。还有很多种情况,比如T检验,相关分析等等。
但这种情况往往被分析人员忽略掉,或者是数学基本不够扎实,或者是无论如何数据均不满足正态分布等客观条件,也或者其它情况等。如果说没有满足前提条件,分析的结果会变得不科学严谨,分析结论会受到置疑。
哪些研究方法需要数据满足正态分布才行呢?以及如果不满足正态分布时应该如何处理呢?接下来会逐步说明。
第一:需要满足正态分布的几类常见研究方法:
常见会涉及五种研究方法,它们对正态性要求相对较高,如果不满足正态性则会有对应的处理。
线性回归分析
线性回归分析,很多时候也称回归分析。其对正态性的要求较为严格,包括因变量Y需要满足正态性要求,同时残差也需要满足正态性。如果说因变量Y不满足正态分布,通常情况下有以下几种处理办法。
第1:对因变量Y取对数处理(包括自然对数和10为底的对数);这可以在SPSSAU的生成变量功能里面找到;
第2:如果数据接近于正态分布,则接受其为正态分布性。此种情况较多,因为在研究影响关系时,线性回归最适合,如果不进行线性回归,通常情况下很难有更适合的研究方法。因而很多时候只要数据接受于正态性即可,而不用强求数据完美的正态,事实上在生活中绝对的“正态性”并不存在。使用正态分布检验方法进行验证正态性最为严苛,因而可使用正态分布图直观查看数据分布情况,接近于“正态分布”更符合实际情况;
第3:加大样本量;有时候数据太少时,即使正态分布的数据,也因为样本小没有办法覆盖各种情况,从而变得不正态,因而加大样本量会减少这种情况产生。
Pearson相关分析
Pearson相关分析(也称皮尔逊相关分析,很多时候直接称呼为相关分析),在实际研究中使用最多。其实Pearson相关分析也有着默认的前提条件,即数据满足正态分布性。但现实中的数据很难满足正态分布性,此时建议使用Spearman(斯皮尔曼)相关系数进行研究即可。
方差分析
方差分析(这里特指单因素方差分析),其默认有个前提条件是因变量需要符合正态分布性,可能是由于即使非正态分布,方差分析的结果也较为稳健,因而很少有人先进行正态分布性检验。
事实上方差分析的因变量也需要满足正态分布特质,如果没有满足,则可以使用非参数检验进行检验。具体非参数检验的类型来看,如果X的组别为两组,例如研究人员想知道不同性别学生的购买意愿是否有显著差异,按性别分为男和女共两组,则应该使用MannWhitney统计量,如果组别超过两组,则应该使用Kruskal-Wallis统计量结果。SPSSAU自动为你选择MannWhitney或者Kruskal-Wallis统计量。
独立T检验
独立T检验(也称T检验),其默认有个前提条件是因变量需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是MannWhitney检验进行研究。
单样本T检验
单样本T检验,其默认前提条件是数据需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是单样本Wilcoxon检验进行研究。
配对样本T检验
配对样本T检验,其默认前提条件是差值数据需要符合正态分布性,如果不满足,此时可考虑使用非参数检验,具体来讲应该是单样本Wilcoxon检验进行研究。其实配对样本T检验与单样本T检验的原理是一模一样,无非是进行了一次数据相减(即差值)处理而已,因而其和单样本T检验保持一致。
第二:理论与现实的“相悖”
从理论上讲,很多研究方法需要满足正态分布特质,但现实情况下,很难满足正态分布性。SPSSAU认为有两点原因。
1是抽样样本过少,很难cover所有情况,所以导致总体是正态分布,但抽样样本不满足正态分布,比如中国13亿人的身高肯定是正态分布,但抽样100个人可能就不会正态分布;
2是认知的不一致,事实上正态性是一种数学理论上的分布,实际情况下只要数据分布基本满足“钟形曲线”特征,SPSSAU认为也应该将数据看成是正态分布。
因而在实际研究过程中,很可能会出现需要满足正态性要求,但是并不满足,此时应该如何处理呢?SPSSAU认为有三种处理方式,如下图:
第一种:使用正态分布图直观判断正态分布特质,而不是使用检验方法。原因在于检验方法比较严苛,而现实数据满足“钟形曲线”特征即可;
第二种:将数据取对数,或者开根号等处理。如果数据值非常大,取对数或者开根号等,会对数据进行“压缩”处理,相对意义上单位会减小,但值的相对意义还是一样,通常情况下,数据会变得相对“正态”一些;此步可使用SPSSAU的“生成变量”功能即可完成。
第三种:使用其它研究方法。如果是使用方差分析,T检验等,如果不满足正态性,则有对应的非参数检验方法可以使用。如果是非参数检验方法进行差异对比,则应该使用中位数去表述大小差异等,而一般不使用平均值(满足正态分布性时才使用平均值表示整体水平)。当然,SPSSAU均会提供对应的非参数检验方法等,可直接使用。
第三:正态分布的“检验方法”
上述已经讲了很多关于正态分布的话题,那如何对正态分布性进行检验呢?SPSSAU提供以下几种检验,如下:
第一种:图示法(使用SPSSAU的正态图即可,可得到类似如下的图等)
第二种:检验方法
SPSSAU共提供两种正态性检验方法,包括S-W检验和K-S检验。小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验;此两个检验的原假设为数据正态分布,因而P值>0.05,说明该项具有正态分布特质;这些均会在SPSSAU的智能分析中默认提供。