K-S检验,是不是感觉似曾相识。没错,就是之前我们检验数据正态性的那个K-S检验。它主要的作用就是检验数据的分布情况,最主要的当然就是正态分布,但还有其他的如均匀分布、指数分布和泊松分布(这3种分布我目前还没有实践过,以后有机会再说)。
原理:
Kolmogorov-Smirnov Z 由观察累积分布函数和理论累积分布函数之间的最大差分(取绝对值)计算而得。该拟合优度检验检验了观察值是否合理来自指定的分布。
数据:
使用定量变量(定距或者定比测量级别)
对于正态检验来说,最好样本量>4000,这样效果较好
基本假设:
H0:样本数据所在总体服从已知分布
H1:样本数据所在总体不服从已知分布
调整的 K-S Lilliefors 检验:
以正态性检验为例,在多数分析场景下样本所在的总体均值和标准差是未知的,此时检验正态性其实是用样本的均值和标准差代替总体进行检验,此时的K-S检验就变成了经Lilliefors调整后的K-S检验。
如果总体均值和标准差已知,那就直接进行K-S检验即可。
案例演示:
打开SPSS自带的案例数据集demo.sav,是一个商场的销售数据,样本量6400。此时我们考察每个顾客的家庭收入(千元)是否服从正态分布,我们只有样本数据,总体是未知的。
实际操作:
新版的SPSS推荐使用1,可视化程度更高;无论新旧都可以使用2,两者结果无差异。此处我演示新版的操作,之后会与旧版做对比。
从结果来看,拒绝H0,说明数据并不满足正态分布。按照之前我们学过的,应该再通过图形法来辅助判断,新版好就好在它直接就给出了带正态曲线的直方图。
下面那个就是刚刚原理提到过的,累积分布函数和理论累积分布函数之间的最大差分,就是通过这个计算得到的P值。(基本不用看)
上图是旧版做出来的,结果完全一致,只是缺少了可视化的直方图,得靠我们后面自己输出,所以干脆直接用新版做简洁明了。
单样本K-S检验主要是用来检验数据分布的,可不是单样本t检验的替代品,这一点要得先知道,后面会细说。拜拜。