有人会问:样本量大于30是不是就不用做正态性检验了?
如果会问出这种问题,我估计是没有理解中心极限定理。
中心极限定理不是针对原始数据的,而是针对统计量的
1、怎么理解这个统计量呢?
不管原始数据的分布是什么样的(可能是正态的,也可能是偏态的),从原始数据中多次抽样,得到多个样本,每个样本可以计算出一个相应的统计量(如均数),如果每个样本中的例数大于30, 那么这些统计量(如均数)的分布接近正态;而不是说:一个样本中的原始数据的个数大于30, 原始数据的分布接近正态。
2、一个偏态分布的例子
偏态分布,随机抽样后变为正态分布?这才是真正的中心极限定理
情形1:
共抽取500次,每次样本均为5例。计算每次样本5个值的均数,得到500个均数,这500个均数的分布如下:
情形2:
共抽取500次,每次样本均为15例。计算每次样本15个值的均数,得到500个均数,这500个均数的分布如下图:
情形3:
共抽取500次,每次样本均为30例。计算每次样本30个值的均数,得到500个均数,这500个均数的分布如下图:
一个总结
从上面3种情形中可以看出,当每次抽样的例数较少的时候,统计量的分布与总体分布形状差不多(在极端情况下,如果每次抽样例数都是I, 那就跟总体分布基本一样)。随着每次抽样的例数增加,统计量的分布越来越接近正态分布。当例数为30的时候,就非常接近正态分布了。这就是为什么说当样本量大于30时,统计量的分布基本呈正态分布。