假设检验

在火影的整个故事里，有人相信血统，有人相信精神，有人相信身体，有人相信眼睛，有人相信先天传承，有人相信后天努力。只有大蛇丸，他相信科学。（from网络热评）

总所周知，大蛇丸是个科学家。这天啊，大蛇丸试验了一批可以在短时间内增加查克拉的药物，数据如下：

编号	实验前	实验后
1	6	10
2	8	13
3	3	6
4	8	10
5	7	11
6	6	8
7	6	7
8	5	8

由于这两个样本来自不同的总体（实验前和实验后），那么怎样判断两者的差别是由于药物效果，还是由于抽样误差引起的？这时候我们就需要“假设检验”。

什么是假设检验？

假设检验亦称为“显著性检验”，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

假设检验的基本步骤：

建立零假设H0和备选假设H1，预先选定检验水准（置信度），一般α=0.05。
选定统计方法，由样本观察值按相应的公式计算出统计量的大小，如X2值、t值等。根据资料的类型和特点，可分别选用Z-检验，t-检验，卡方检验等。
根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α，结论为按α所取水准不显著，不拒绝H0，即认为差别很可能是由于抽样误差造成的，在统计上不成立；如果P≤α，结论为按所取α水准显著，拒绝H0，接受H1，则认为此差别不大可能仅由抽样误差所致，很可能是实验因素不同造成的，故在统计上成立。

怎么选择零假设？

零假设认为差别是由于抽样误差造成的，具体可以分以下几种情况：

关于一种药物（或者实验）有效无效，一般认为无效是H0,有效是H1。
关于稳定性的问题，一般认为原状态是H0，改变是H1。
相不相等的问题，一般认为等于是H0，大于等于是H1。

t-检验、F-检验、Z-检验的区别？

几种检验方法都是根据不同的分布情况而来的，具体可以看以下文章：

几种分布概述（正态分布/卡方分布/F分布/T分布）

t-检验和Z-检验

t-检验和Z-检验都是用于检验样本均值是否符合某个假设值（例如两个样本均值是否相等）。t-检验用于小样本（<30），Z-检验用于大样本(>30)。

t-检验可以用于检验样本为来自一元正态分布的总体期望，即均值；也可检验2个来自正态分布总体的样本均值是否相等。t-检验还可以对线性回归系数的显著性进行检验，在多元回归分析中，先用F-检验考察整个回归方程的显著性，再对每个系数是否为零进行t-检验。

t-检验分为成对样本均值差（一个样本进行前后两次实验进行检验，也就是本文大蛇丸的例子）、等方差双样本、异方差双样本三种。在R语言中，t.test()默认的是异方差双样本检验。具体操作方法可参考以下文章：

如何用 R 做 t 检验

为什么t检验更常用？

实际情况中，在样本量较大的情况下，还是t-检验较为常用，这是为什么呢？
第一点原因，使用Z-检验需要知道总体的方差，然而在很多情况下这是难以知道的。
第二点原因，t-检验是可以代替Z-检验的。根据中心极限定理：

当总体分布是正态分布时，对任意样本量n，抽样均值分布均为正态分布。如果总体为非正态分布，仅在n值较大的情况下，样本均值分布近似为正态分布。

总体服从正态分布的数据在小样本时呈现为t分布形态，而服从t分布的数据在样本较大时会渐近于正态分布，也就是无论样本大小，均可以使用T检验。但对于Z检验来说，它一定需要数据是正态分布的，小样本时服从t分布而不是正态，所以z检验通常用在大样本时而不是小样本时，显然t检验的使用条件比z检验宽松，可以完全替代z检验。

F-检验/方差分析（ANOVA）

方差分析（ANOVA）又称“变异数分析”或“F检验”，和t-检验、Z-检验不同，F-检验判断的不是均值，而是判断两样本的方差是否相等。这是选择何种t-检验的前提。
一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素、各因素之间的交互作用，以及显著影响因素的最佳水平等。
方差分析可分为单因素、无重复双因素、有重复双因素三种，详细R语言实例参考下文：

方差分析与R实现

卡方检验

卡方检验属于非参数检验的范畴，主要是比较两个及两个以上分类变量样本率以及两个分类变量的关联性（差异性）分析，因此卡方检验又称为独立性检验。
以一个2*2的列联表为例，用95%显著水平，检验色觉与性别是否相关：

	男	女	合计
正常	442	514	954
色盲	38	6	44
合计	480	520	1000

step1

H0：色觉与性别相互不独立；H1：色觉与性别相互独立

step2

自由度df=(r－1)(c－1)=(2－1)(2－1)=1,理论频数计算:

	男	女	合计
正常	956×480/1000=459	956×520/1000=497	954
色盲	44×480/1000=21	44×520/1000=23	44
合计	480	520	1000

Step3

计算统计量:

	男	女	合计
正常	(442－459)^2/459=0.6	(514－497)^2/497=0.6	1.2
色盲	(38－21)^2/21=13.5	(6－23)^2/23=12.5	25.9
合计	14.1	13	27.1

Step4

查分布临界值:

统计推断：χ2=27.1>5.0239拒绝原假设，即色盲与性别相互独立。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343