推断统计学(二)——假设检验

1.0 假设检验

        假设检验是建立在否定式逻辑上的一类概率验证方法。

1.1 否定式逻辑

        否定式逻辑:若 A\implies B,则 ~B\implies ~A。举个例子,一般情况下若一个人性别为男性(A),则这个人上厕所理应去男厕(B),但是发现这个人不去男厕上厕所(~B),则这个人的性别就不是男性(~A)。

        需要注意两点:1)否定式逻辑中A和B并不是充要关系,因此存在~B无法反推出~A的情况,需结合实际情况考虑;2)否定式逻辑和反证法非常相似,但本质上还是有些许不同的,差异就在反证法默认~B是一定可以推出~A,但多数情况下可以认为是同一种思想。

1.2 小概率事件

        假设检验的另一基础是小概率事件,即:小概率事件是发生概率很小(接近于0)的一类事件。那么在一次试验(抽样)中是几乎不可能发生的,但在多次重复试验(抽样)中是必然发生的。

2.0 假设检验的步骤

Step 1:提出(推断性)假设

        假设检验首先需要提出待检验的假设,包括H_0H_1H_0被称为零假设或虚无假设(null hypothesis),在否定式逻辑中就是A;H_1备择假设(alternative hypothesis),也称对立假设,就是否定式逻辑中的~A。H_0H_1是一对互斥事件,构成了现实情况描述的完备情况。

        那么如何确定假设内容,通常有一定的原则遵循:将无差别的、不起作用的、公认的、不证自明的、符合规则的内容作为H_0,将有区别的、起作用的、需要证明的、违反规则的内容作为H_1

        以薯片袋重为例,已知一袋薯片外包装上标明其重量为\mu,现通过n>30的抽样调查得到样本平均袋重为m。由于抽样误差存在,必然有\mu \neq m,现在要检验薯片的真实平均袋重(记\overline{\mu})是否为\mu 。提出假设:

        H_0 \mu = \overline{\mu }(即A)

        H_1 \mu\neq\overline{\mu }(即~A)

        这里\mu是预先决定的、计划好的、普遍认为的生产标准,因此作为H_0的内容。H_1则直接对H_0取反即可。

Step 2: 计算概率

        假设检验第二步就是计算\overline{x}在一次的抽样中出现的概率,并得到B和~B:

        B:抽样得到的样本均值为m是一个常规情况,不是小概率事件;

        ~B:抽样得到的样本均值为m是一个小概率事件。

        到此,假设检验中完整的否定式逻辑就已经形成:

        A\implies B:若零假设成立,那么(在零假设成立的情况下)一次抽样的结果不应该是一个小概率事件;

        ~B\implies ~A:若一次抽样的结果是一个小概率事件,与零假设成立的假定相矛盾,那么零假设不成立。

        这一概率其实是一个条件概率,即计算在零假设成立的前提下抽样结果发生的概率,即P(抽样结果|零假设成立)。

Step 3:概率推断

        第三步概率推断就是对基于计算概率结果对假设的“拒绝”和“接受”进行判断,推断过程见下图:

        概率推断依据前面的推导逻辑,若零假设的成立前提下,样本在一次抽样事件中发生的条件概率P(m|\mu = \bar{  \mu})位于小概率事件阈值之间p<\frac{\alpha }{2} \alpha 为显著性水平,注意与置信水平的关系),说明B成立,则 A\implies B,所以不拒绝H_0;若p\geq \frac{\alpha}{2} ,则认为抽样事件为小概率事件,即~B成立,则有 ~B\implies ~A,所以拒绝H_0接受H_1

        至此,假设检验全过程完成。

        假设检验根据实际应用分为双侧检验和单侧检验,在原假设、备择假设构造集概率计算上都有所不同。且与参数估计一样,样本量级、总体分布是否正态、总体方差是否已知等因素也会影响样本分布。这里就不阐述,解详可翻阅任一统计学书籍。

3.0 补充说明

3.1 “接受”和“拒绝”

        检验结果为什么使用的是“接受”和“拒绝”,而不是“真”和“伪”?

        答:由于无法获取总体数据,因此永远不可能知道总体参数的真实情况,也就不存在“真”和“伪”的问题。薯片例子中,这里给出的\overline{\mu} 只是预先规定的重量,本质是一个期望值,并不是真实值,而假设检验的多数情况都是对期望值的检验。

        “接受”、“拒绝”和“不拒绝”有什么区别?

        首先看p>\alpha 时,说明零假设\mu  = \overline{\mu} 前提下,此时不拒绝H_0但是由于无法知晓总体参数的真值,所以若\overline{\mu} \pm \Delta \Delta 足够小时,必然同样可以得到P(m | \mu =\overline{\mu}+ \Delta ) > \alpha ,而这样的\overline{\mu} \pm \Delta 可以有无数个取值,零假设H_0:\mu = \overline{\mu}只是无数可能情况的一种,因此无法确定真实情况具体是哪一种,只能“不拒绝”,而不是“接受”。但是p<\alpha 时,说明零假设H_0:\mu =\overline{\mu }是一种几乎不可能的情况,可以较为确定总体真值并不是这一种,因此可以“拒绝”

3.2 p值和t

        假设检验第二步是计算概率,并即p值,通过比较p值和\alpha 的大小关系进行假设检验的判断。而p值又是根据t值计算得到的,t值实际上就是在零假设成立时将样本服从分布转化成标准正态分布后的样本均值所对应的数值,p值就是t值形成区域的面积,如下图绿色区域所示:

        因此假设检验的第二步除了比较概率p值和\alpha 之外,还可以比较t值进行判断。依然以上文薯片为例当t值在显著性水平\alpha 所对应的临界值之外时(假设总体正态分布且方差已知),即t<-Z_\frac{\alpha }{2} t>Z_\frac{\alpha }{2} ,则有p<\frac{\alpha }{2} ,于是拒绝H_0,接受H_1;当t值在\pm Z_\frac{\alpha }{2} 内侧时,则有p\geq \frac{\alpha }{2},于是不拒绝H_0

        下图标注了以三组相反数,+/-2.58、+/-1.96和+/-1.645作为双侧检验判断边界的情况,三组边界分别对应了\alpha 去0.01、0.05和0.1的情况,边界的外部两侧即为拒绝域,拒绝域的面积即为相应的\alpha (单侧面积为\alpha /2),当样本结果的p值落在拒绝域,等同于样本结果的发生概率小于拒绝域对应的\alpha ,此时就拒绝H_0,反之则不拒绝H_0

3.3 一类错误和二类错误

        对于\alpha 的取值,实际是并没有一个学术上严格的规定,目前为止都是习惯地取0.01、0.05或0.1,其中0.05是较为常见的情况。对于0.05的由来,一种较为令人信服的说法是标准正态分布的4倍标准差(上图中将+/-1.96近似为+/-2)内的概率近似约为0.95(实际会略大),从范围取值和概率取值来说都是方便计算和记忆的数,同时0.05的拒绝空间也足够保证假设检验的正确性。

        然而以0.01、0.05和0.1作为判断依据具有较大的武断性,并对假设检验的结果带来了一定错误风险,即一类错误(type I error)和二类错误(type II error)。

        一类错误就是错误地拒绝H_0,即“拒真”。假设检验中,以\alpha 作为是否拒绝H_0的标准,所以一类错误的发生概率就是\alpha 。一类错误意味着,在一次抽样中,小概率事件就这么不巧地发生了,导致错误地拒绝了H_0

        二类错误就是错误地没有拒绝H_0,即“纳伪”,更准确地说是“未拒伪”,犯错概率通常记为\beta 。但一类错误中预先就知道犯错概率为\alpha ,而二类错误却必须通过总体均值计算才能得到,实际中常以样本均值代替总体均值计算。以薯片袋重为例,犯二类错误的概率\beta =P(t_\frac{\alpha}{2} |\mu = \hat{\mu} )t_\frac{\alpha}{2}\mu = \overline{\mu} 时使得拒绝域概率为\alpha 的统计量。

        从下图详细说明一下:

        使用薯片袋重的案例情境,图1(Fig 1)是基于零假设\mu = \overline{\mu} 成立时样本均值所服从的概率分布,此时分布均值为\overline{\mu} ,紫色实线\pm t_\frac{\alpha}{2}为双侧检验中\alpha 所对应的一对t值,那么蓝线两边外侧的黄色区域就是拒绝域,区域面积为\alpha

        图2(Fig 2)则是样本的总体均值实际为\hat{\mu } 时,样本均值所服从的概率分布。图1中的\pm t_\frac{\alpha }{2}在图2的分布中同样形成一个绿色区域,这部分区域的面积就是\beta

        那么\alpha \beta 的实际意义是什么呢?先看\alpha :如果样本的总体均值就是\overline{\mu} (见图1),那么抽样结果大概率应该落在两紫色实线之间的区域,但不巧的是这次抽样结果落在了拒绝域,所以就把\overline{\mu} 拒绝了,这就是“拒真”。那么显然拒绝域越大,也有可能发生“拒真”的情况,因此拒绝域的面积\alpha 就是“拒真”错误,也就是第一类错误发生的概率。

        再看\beta :如果样本的总体均值实际为\hat{\mu } \hat{\mu } \neq \overline{\mu } ,此时应该是拒绝零假设\mu = \overline{\mu} 。但是,图1总体均值为\overline{\mu} 的分布与图2总体均值为\hat{\mu } 分布在t_\frac{\alpha}{2}是有重合的,即图1红色区域和图2绿色区域共用相同的t值区间(横坐标),这就意味即便总体均值为\hat{\mu } ,但仍有可能落在总体均值为\overline{\mu} 的非拒绝域中,结果就是不拒绝H_0,这就是第二类错误,而发生这种情况的概率就是图2绿色区域的面积\beta

        从上图也能很明显地看出来,同一次抽样中(样本量固定、标准差固定),\alpha \beta 是一种此消彼长的关系(移动\pm t_\frac{\alpha }{2}看红色和绿色区域的面积变化)。

        此外,依据抽样特性,随着样本量的增加,标准差不断减小,此时正态分布曲线会逐渐变窄,这样可以使得\alpha \beta 同时减小。

混淆矩阵中的FP即为一类错误,FN即为二类错误。

4.0 假设检验和参数估计

        参数估计和假设检验都是推断统计学的重要部分,二者在本质上是相通:

        参数估计是考察总体均值和样本均值之间的距离是否在置信范围内,而95%的置信度则代表了一种正确可能性。

        假设检验,则是将\bar {  x} 转化为Z值或t值后(即样本统计量按照抽样分布进行标准化),考察与0的距离是否超过了1.96,显著性水平\alpha 则是1-置信度水平。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。