10. 假设性检验

1. 简介

假设性检验问题,检验的是整体的统计量。定义null hypothesis和alternative hypothesis,对于假设性检验根据简介中的方法会有两种结论,注意在null hypothesis里面,必须是等号
拒绝H_0,接受H_1 :这表明我们有足够的证据证明H_1是正确的
无法拒绝H_0,拒绝H_1 :之所以无法说接受H_0,是因为H_0里面是等号,我们的证据证明了我们的总体的统计量会在值附近波动而不是就是这个值,因为可能会有一些微小的干扰因素,但是不影响我们的结论,因此,我们只能说我们没有足够的证据去拒绝H_0

2. 从Type 1 Error 和 Type 2 Error说明显著性指标\alpha的意义

类比机器学习的分类问题,我们有
Type 1 error: null hypothesis为true的时候被得到了拒绝的结论
Type 2 error: null hypothesis为false的时候被得到了无法被拒绝的结论

H_0 为真 H_0为假
无法拒绝 H_0 Type 2 error
拒绝 H_0 Type 1 Error

定义
\alpha = Probability of Type \ 1 error, 即我们常常用于检验的显著性水平
\beta = Probability of Type \ 2 error

备注: 事实上Type 2 error一般讨论的比较少,但是为了完整性以及便于理解,还是写出来比较好

例子:有20个人打了疫苗,有8个人在两年之内没有感染病毒,问打了疫苗以后,2年之内没有感染病毒的数量超过5个人的概率

问题设立
H_0:p=0.25
H_1:p>0.25

将上述条件画出来,我们的决策空间如下图所示:


图1 type 1与type 2 error

Type 1 error的分析
事实上,我们可以从另一个角度来看这个问题,这个问题相当于是以n=20, p=0.25的概率抽样,则抽样服从的是b(x; 20, 0.25)的一个二项分布, 实际上在这个时候,我们是以H_0为真作为基准来看待问题, 我们如果得到了8次以上,代表超过8个人在两年之内没有感染病毒才能得到p=0.25这个结论,因此我们的决策是拒绝H_0,因此根据上面表格,H_0为真,但是决策为拒绝,这种情况代表了Type 1 error

\alpha = P(type 1 error) = P(X > 8 \ when \ p = \frac{1}{4}) = \sum _{x=9}^{20}b(x;20,1/4) = 1 - \sum _{x=0}^{8}b(x;20,1/4) = 0.0409

Type 2 error的分析
根据上面的表格,H_0是假的,代表了H_1是真的,但是问题在于,根据上面的分析,H_1代表了p>0.25并且X \leq 8,这个实际上是无法计算的,除非说p有一个特定的值,假设p=0.7,则 type 2 error为

\beta = P(type 2 error) = P(X \leq 8 \ when \ p = 0.7) = \sum _{x=0}^{8}b(x;20,0.7) = 0.0051

更加一般的情况:正态分布的分析
Type 1和Type 2 error可以通过增加样本容量来减小。

例子:假设在上面的例子中,n=100,观测有36个人在两年之内没有感染病毒,假设性检验50个人在两年内没有感染病毒的概率
H_0:p=0.25
H_1:p>0.25

由于样本容量较大,二项分布可以近似为正态分布,如果H_0为真,则均值\mu = np = 100*1/4 = 25, 方差\sigma = \sqrt{npq}= \sqrt{100*0.25*(1-0.25)}=4.33
因此,36个人对应的z = \frac{36-25}{4.33}=2.66
\alpha = P(Type \ 1 \ error)= p(z>2.66)=1-p(z<2.66)=1-0.9961=0.0039

对于type 2 error,假设检验的是alternative hypothesis为p=0.5,则方差不变,均值变成\mu = np=100*1/2=50
因此,36个人对应的z = \frac{36-50}{4.33}=-2.70
\beta = P(Type \ 2 \ error)= p(z<-2.70)=0.0035

我们能算出了Type 1 error之后(Type 2很少会做考虑),接下来则是要做决策了,显然很自然的就会想到设立一个cut off值,这个cut off的值也就是统计中经典的显著性水平 \alpha=0.01,0.05

假设这里,我们预设的显著性水平为0.01,则\alpha=p(z>2.66)=0.0039<0.01,说明如果H_0成立的,那么我仅仅只有0.0039的概率会得到z大于2.66,即有36或者更多人没有感染病毒。这个量而这比我预想的概率要小,因此选择拒绝H_0 (有点类似反证法的思路)

3. P-value及其意义

根据2中的分析,我们需要预设一个\alpha,如果Type 1 error小于这个值,则我们选择拒绝H_0,否则我们无法拒绝H_0。对于从我们观测值推出来的Type 1 error的值,我们把它叫做P-value

定义:P-value是拒绝H_0的最小显著性水平
实际上,根据上面的分析,这句话也等同于得到H_0所示统计量显著的结论所需要Type 1 error最小的概率

4. 假设性检验的两种方式

方式一

  1. 设定null与alternative hypothesis
  2. 选择预设的\alpha
  3. 选择合适的统计量,并根据预设的\alpha值寻找其对应的判别域
  4. 如果在判别域中,则拒绝H_0,否则我们无法拒绝H_0
  5. 将结论化为实际问题的具体意义

方式二

  1. 设定null与alternative hypothesis
  2. 选择预设的\alpha
  3. 选择合适的统计量,并根据该统计量计算对应的P-value
  4. 如果3中得到的P-value比预设的\alpha值小,则拒绝H_0,否则我们无法拒绝H_0
  5. 将结论化为实际问题的具体意义

通常而言,方式一对于查表的方式而言往往会比较方便,因为预设好了\alpha的值就能直接查到统计量比如z, t, \chi^2,f等等统计量的分界线,但是方式二会更加的直观和通用,它不会根据z, t, \chi^2,f等等检验的不同而改变,而是一个固定的值。但总之,这两种方式都很常用,而且很重要。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,884评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,212评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,351评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,412评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,438评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,127评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,714评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,636评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,173评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,264评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,402评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,073评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,763评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,253评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,382评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,749评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,403评论 2 358

推荐阅读更多精彩内容