统计学（54）-用描述的方法判断正态性

为什么用要描述的方法呢？之前的检验不可行吗？
我们在上图中已经发现，右图y的分布挺像正态的，但SW检验和AD检验仍然提示不满足正态分布。

1、检验方法的弊端

（1）首先要明确，正态性检验的无效假设是＂数据服从正态分布“，也就是说， SW等方法先计算偏离正态的程度，然后看能否推翻无效假设。跟其他的假设检验一样，当数据越多时，越容易推翻无效假设。就像t检验中比较两组均值一样，当样本量很大的时候，即使差别0.01也会有统计学意义；同样，当样本量很大的时候，即使偏离正态很小，也会有统计学意义。
（2）但是，有统计学意义未必代表有实际意义，因为统计学的差异有时对我们来说并不是很重要，如两组身高的差值为0.1cm, 即便有统计学意义，也没有多大实际意义。

2、描述性方法应运而生

不少统计学家并不建议用统计学检验的方法来判断正态性，而是推荐用图形等描述性方法来进行判断。虽然略带主观性，但是考虑到多数的经典统计方法对“偏离正态”这一问题都是有一定抵抗力的，因此图形判断法还是比较有价值的。

3、常见的判断正态性的描述性方法

（1）Q-Q图和P-P图
Q-Q图（左图）是Quantile-Quantile 的缩写，也就是分位数－分位数图。在Q-Q图中，横坐标是正态分位数，纵坐标是实际数据的分位数。其思想就是：比较理论分位数和实际分位数的差距，如果理论分位数和实际分位数没什么差别，那么图中所有的点应该都在一条直线上；如果差别大，就会偏离直线较远。
因此， Q-Q 图判断正态性的原则就是：如果图中的点大致呈一条从左下至右上的直线，则可以认为是正态的。
P-P（Probability-Probability) 图（右图）的思想跟Q-Q 图差不多，只不过不是用分位数，而是用累积概率。它比较理论上正态分布的累积概率与样本数据的累积概率，其横坐标为理论的累积概率分布，纵坐标为样本数据的累积概率分布。显然，如果二者吻合，则应该是一条从左下至右上的直线；如果偏离直线较远，则说明样本数据不服从正态分布。

image.png

（2）茎叶图

image.png

变量x的值都是小于30 的，也就是说，最多只有两位数。下图的“茎＂列是变量x的十位数，“叶＂列是变量x的个位数，“计数”列则是频数。例如，最后一行的0|33 表示有两个3 (凡是在2.5~3 .5 之间的，都显示为整数3); 第三行的2|23 表示有一个22 (凡是21.5 和22.5 之间的数值都算是22,如22.1 或21.9) 和一个23; 其他以此类推。
从茎叶图中可以看出很多信息，如可以很容易发现，大多数数据集中在10 以下，而且整个茎叶图的形状并不是对称的，这些都说明变量x很可能是不服从正态分布的。
作为对比，我们可以看下y变量的对比：

image.png

变量y可能比变量x更接近正态分布。变量y的茎叶图提示，大多数数据集中在50~90之间。
（3）利用四分位数间距和标准差进行简易判断
对于一个来自正态分布的样本，其四分位数间距（IQR) 和标准差（s) 之比大约为1.34 。因此，如果IQR/s的值在1.34左右，则可以认为其满足正态分布。
对于图11.1中的变量x 和y, 其IQR/s分别为4.00/3 .97=1.01和20.65/13.07=1.58, 相对而言，1.58偏离1.34更小一些，因此可以简单判断很可能变量x偏离正态更严重一些。

统计学（54）-用描述的方法判断正态性