1. 简介
假设性检验问题,检验的是整体的统计量。定义null hypothesis和alternative hypothesis,对于假设性检验根据简介中的方法会有两种结论,注意在null hypothesis里面,必须是等号
拒绝,接受
:这表明我们有足够的证据证明
是正确的
无法拒绝,拒绝
:之所以无法说接受
,是因为
里面是等号,我们的证据证明了我们的总体的统计量会在值附近波动而不是就是这个值,因为可能会有一些微小的干扰因素,但是不影响我们的结论,因此,我们只能说我们没有足够的证据去拒绝
2. 从Type 1 Error 和 Type 2 Error说明显著性指标
的意义
类比机器学习的分类问题,我们有
Type 1 error: null hypothesis为true的时候被得到了拒绝的结论
Type 2 error: null hypothesis为false的时候被得到了无法被拒绝的结论
|
|
|
---|---|---|
无法拒绝 |
Type 2 error | |
拒绝 |
Type 1 Error |
定义
= Probability of
error, 即我们常常用于检验的显著性水平
= Probability of
error
备注: 事实上Type 2 error一般讨论的比较少,但是为了完整性以及便于理解,还是写出来比较好
例子:有20个人打了疫苗,有8个人在两年之内没有感染病毒,问打了疫苗以后,2年之内没有感染病毒的数量超过5个人的概率
问题设立
将上述条件画出来,我们的决策空间如下图所示:
Type 1 error的分析
事实上,我们可以从另一个角度来看这个问题,这个问题相当于是以n=20, p=0.25的概率抽样,则抽样服从的是的一个二项分布, 实际上在这个时候,我们是以
为真作为基准来看待问题, 我们如果得到了8次以上,代表超过8个人在两年之内没有感染病毒才能得到p=0.25这个结论,因此我们的决策是拒绝
,因此根据上面表格,
为真,但是决策为拒绝,这种情况代表了Type 1 error
= P(type 1 error) = P(
) =
Type 2 error的分析
根据上面的表格,是假的,代表了
是真的,但是问题在于,根据上面的分析,
代表了p>0.25并且
,这个实际上是无法计算的,除非说p有一个特定的值,假设p=0.7,则 type 2 error为
= P(type 2 error) = P(
更加一般的情况:正态分布的分析
Type 1和Type 2 error可以通过增加样本容量来减小。
例子:假设在上面的例子中,n=100,观测有36个人在两年之内没有感染病毒,假设性检验50个人在两年内没有感染病毒的概率
由于样本容量较大,二项分布可以近似为正态分布,如果为真,则均值
, 方差
因此,36个人对应的
对于type 2 error,假设检验的是alternative hypothesis为,则方差不变,均值变成
因此,36个人对应的
我们能算出了Type 1 error之后(Type 2很少会做考虑),接下来则是要做决策了,显然很自然的就会想到设立一个cut off值,这个cut off的值也就是统计中经典的显著性水平 =0.01,0.05
假设这里,我们预设的显著性水平为0.01,则,说明如果
成立的,那么我仅仅只有0.0039的概率会得到z大于2.66,即有36或者更多人没有感染病毒。这个量而这比我预想的概率要小,因此选择拒绝
(有点类似反证法的思路)
3. P-value及其意义
根据2中的分析,我们需要预设一个,如果Type 1 error小于这个值,则我们选择拒绝
,否则我们无法拒绝
。对于从我们观测值推出来的Type 1 error的值,我们把它叫做P-value
定义:P-value是拒绝的最小显著性水平
实际上,根据上面的分析,这句话也等同于得到所示统计量显著的结论所需要Type 1 error最小的概率
4. 假设性检验的两种方式
方式一
- 设定null与alternative hypothesis
- 选择预设的
值
- 选择合适的统计量,并根据预设的
值寻找其对应的判别域
- 如果在判别域中,则拒绝
,否则我们无法拒绝
- 将结论化为实际问题的具体意义
方式二
- 设定null与alternative hypothesis
- 选择预设的
值
- 选择合适的统计量,并根据该统计量计算对应的P-value
- 如果3中得到的P-value比预设的
值小,则拒绝
,否则我们无法拒绝
- 将结论化为实际问题的具体意义
通常而言,方式一对于查表的方式而言往往会比较方便,因为预设好了的值就能直接查到统计量比如z, t,
,f等等统计量的分界线,但是方式二会更加的直观和通用,它不会根据z, t,
,f等等检验的不同而改变,而是一个固定的值。但总之,这两种方式都很常用,而且很重要。