为什么用要描述的方法呢?之前的检验不可行吗?
我们在上图中已经发现,右图y的分布挺像正态的,但SW检验和AD检验仍然提示不满足正态分布。
1、检验方法的弊端
(1)首先要明确,正态性检验的无效假设是"数据服从正态分布“,也就是说, SW等方法先计算偏离正态的程度,然后看能否推翻无效假设。跟其他的假设检验一样,当数据越多时,越容易推翻无效假设。就像t检验中比较两组均值一样,当样本量很大的时候,即使差别0.01也会有统计学意义;同样, 当样本量很大的时候,即使偏离正态很小,也会有统计学意义。
(2)但是,有统计学意义未必代表有实际意义,因为统计学的差异有时对我们来说并不是很重要,如两组身高的差值为0.1cm, 即便有统计学意义,也没有多大实际意义。
2、描述性方法应运而生
不少统计学家并不建议用统计学检验的方法来判断正态性,而是推荐用图形等描述性方法来进行判断。虽然略带主观性,但是考虑到多数的经典统计方法对“偏离正态”这一问题都是有一定抵抗力的,因此图形判断法还是比较有价值的。
3、常见的判断正态性的描述性方法
(1)Q-Q图和P-P图
Q-Q图(左图)是Quantile-Quantile 的缩写,也就是分位数-分位数图。在Q-Q图中,横坐标是正态分位数,纵坐标是实际数据的分位数。其思想就是:比较理论分位数和实际分位数的差距,如果理论分位数和实际分位数没什么差别,那么图中所有的点应该都在一条直线上;如果差别大,就会偏离直线较远。
因此, Q-Q 图判断正态性的原则就是:如果图中的点大致呈一条从左下至右上的直线,则可以认为是正态的。
P-P(Probability-Probability) 图(右图)的思想跟Q-Q 图差不多,只不过不是用分位数,而是用累积概率。它比较理论上正态分布的累积概率与样本数据的累积概率,其横坐标为理论的累积概率分布,纵坐标为样本数据的累积概率分布。显然,如果二者吻合,则应该是一条从左下至右上的直线;如果偏离直线较远,则说明样本数据不服从正态分布。

(2)茎叶图

变量x的值都是小于30 的,也就是说,最多只有两位数。下图的“茎"列是变量x的十位数,“叶"列是变量x的个位数,“计数”列则是频数。例如,最后一行的0|33 表示有两个3 (凡是在2.5~3 .5 之间的,都显示为整数3); 第三行的2|23 表示有一个22 (凡是21.5 和22.5 之间的数值都算是22,如22.1 或21.9) 和一个23; 其他以此类推。
从茎叶图中可以看出很多信息,如可以很容易发现,大多数数据集中在10 以下,而且整个茎叶图的形状并不是对称的,这些都说明变量x很可能是不服从正态分布的。
作为对比,我们可以看下y变量的对比:

变量y可能比变量x更接近正态分布。变量y的茎叶图提示,大多数数据集中在50~90之间。
(3)利用四分位数间距和标准差进行简易判断
对于一个来自正态分布的样本,其四分位数间距(IQR) 和标准差(s) 之比大约为1.34 。因此,如果IQR/s的值在1.34左右,则可以认为其满足正态分布。
对于图11.1中的变量x 和y, 其IQR/s分别为4.00/3 .97=1.01和20.65/13.07=1.58, 相对而言,1.58偏离1.34更小一些,因此可以简单判断很可能变量x偏离正态更严重一些。