- 简介
卡方检验(chi-square,记为χ2\chi^2检验)是统计学中常用来计数数据分析的方法,对于总体的分布不作任何假设,因此它属于非参数检验法中的一种。
𝜒2检验的基本思想是根据样本数据推断总体的频次与期望频次有显著性差异, 𝜒2的计算公式为:
其中,𝑓0为实际观察频次,𝑓𝑒为理论值。
卡方分析有两个常见的应用——适合度(拟合性)分析和独立性分析。
- 卡方独立性检验
“独立性检验”验证从两个变量抽出的配对观察值组是否互相独立(例如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关)。
独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。又可具体分为:
四格表的独立性检验:又称为2*2列联表的卡方检验。四格表资料的独立性检验用于进行两个率或两个构成比的比较,是列联表的一种最简单的形式。
行x列表资料的独立性检验:又称为RxC列联表的卡方检验。行x列表资料的独立性检验用于多个率或多个构成比的比较。
2.1 独立性检验步骤
Step1:建议原假设
H0:两变量相互独立;H1:两变量相互不独立
Step2:计算自由度与理论频数
自由度:𝑑𝑓=(𝑟−1)(𝑐−1),理论频数:
Step3:计算统计量
Step4:查𝜒2分布临界值表,确定接受域和拒绝域
接受域:
2.2 应用条件
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,即公式:
2.3 应用实例
例:对下表所示频数分布表,以95%显著水平,检验色觉与性别是否有关。
解:
Step1:H0:色觉与性别相互独立;H1:色觉与性别相互不独立(相关)
Step2:自由度𝑑𝑓=(𝑟−1)(𝑐−1)=(2−1)(2−1)=1,理论频数计算如下表
要算理论频数,要先求理论概率。这里一共有1000人,其中色盲的有44人,正常的有956人,那么色盲理论概率是44/1000,正常的理论概率是956/1000.
然后,把这1000人分成了两组,男性和女性。男性这组有480人,那么按理论概率计算,这480人里面,色盲的人应该是480*(44/1000)。这样就算出了男性并且患色盲的理论频数,其余同理。
Step3:计算统计量
Step4:查分布临界值表
统计推断:
所以拒绝原假设,即色觉与性别相互不独立。
- 卡方拟合性检验
卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得到的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。其自由度通常为分类数减去1,理论次数通常根据某种经验或理论。
总而言之,卡方拟合度检验用于判断不同类型结果的比例分布相对于一个期望分布的拟合程度。
3.1 应用条件
卡方拟合性检验适用于变量为类别型变量的情况。 例如:变量为有罪或无罪。
当每个类别中观察到的或预期的频率太小时,此检验无效。要求样本含量应大于40且每个格子中的理论频数不应小于5。
3.2 应用实例
随机抽取60名高一学生,问他们文理要不要分科,回答赞成的39人,反对的21人,问对分科的意见是否有显著的差异。
解:
(1)提出H0:学生们对文理分科的意见没有差异
(2)分析:如果没有显著的差异,则赞成与反对的各占一半,因此是一个无差假设的检验,于是理论次数为60/2=30,带入公式:
其中自由度df = 类别-1 = 2-1 = 1
所以拒绝原假设,认为对于文理分科,学生们的态度是有显著的差异的。
- Fisher's exact test(Fisher确切概率法)
关于样本大小和理论频数的约束和检验的选择,这里给出说明:
当N≥40且所有理论频数T≥5时,用Pearson's chi squared test,若此时计算出来的p值与规定的显著性水平(如0.05)相近时,改用Fisher's exact test。
当n≥40但存在某一个格子的理论频数T<5,此时用Yates's correction for continuity,或用Fisher's exact test。
当n<40,或存在某一个格子的理论频数T<5,用Fisher's exact test。
Fisher精确检验(Fisher exact test)是一个比较另类的检验,它没有统计量,更没有繁琐的统计量的表格,它算出来的就是p值,但是它在大样本情况下手算几乎是不可能的,因为它涉及到阶乘运算。这里还是利用性别和色盲的关系的那个例子加以说明:
同是固定边际频数不变,与Pearson的思想不同(似乎他俩到后面意见就没怎么相同过),Fisher考虑的是超几何分布:固定边际频数不变后,每次抽样就相当于从边际频数中抽取数字填进四格表中,从而得到样本的情形服从超几何分布:
前两个分式意义不同,但计算结果相等,都等于第三个分式。
比如考虑第一个分式,它表示的是从n个样本中抽取a+c个正常人,其中a个是男性、c个是女性的概率。若考虑第二个分式,它表示的是n
个样本中抽取b+d个色盲患者人,其中b个是男性、d个是女性的概率。
这里面比较的是正常人的男女比和色盲患者的男女比的差异,由于总频数和边际频数都是固定的,因此它们两个计算出来的结果相等。Fisher给出的这样的概率就是p值,是精确的,因此叫Fisher's exact test。
但不能只计算当前样本情形的p值,因为假设检验的p值都是累积概率值,我们需要计算出现当前以及比当前更极端的情形的概率的和。关于“更极端”的这个概念,可以理解为:在原假设成立的情况下,理论上四格表中两对角线元素乘积之差等于零,实际样本中这个差的绝对值越大,情形越极端。
我们给这个例子加上具体的数字来分析一下。为了简化起见,我把样本量设得很小,倘若我们实际抽样得到的结果是这样的:
我们记这样的结果为情形2(因为马上要列出其他的情形,这种情形是第二极端的)。代入公式得到
那么总样本数和边际数不变的情况下,我们变动四格表中的数字,可以有如下其他的情形:
情形1(最极端的),p1 = 0.00396825
情形3,p3 = 0.3968254
情形4(与情形3对称),p4 = 0.3968254
情形5(与情形2对称),p5 = 0.09920635
情形6(与情形1对称),p6 = 0.00396825
可以验证,这六种情形的概率之和为1。Fisher确切概率法能够让我们准确地认识到假设检验中p值的含义:在原假设成立的情况下,发生当前甚至更极端的情形的概率。
我们发现上述六种情形的p是先增加后减少。如果是双侧检验,我们的p值等于两段p的和:增加的那段和减少的那段中的p小于样本情形的p的和。
在这个例子中双侧检验的 p = p1 + p2 + p5 + p6 = 0.2063,它检验的意义是需要考虑对称的情况,色盲与性别的关系。如果单侧检验,只需计算样本所在那一段中当前情形以及比它更极端的情形的p的和。在这个例子中,单侧检验的p = p1 + p2 = 0.1032。我们已经知道色盲人群中,男性比女性更多,因此这个例子选择单侧检验更合适,然而在显著性水平为0.01的情况下仍不能拒绝原假设。
其实当a + b = c + d 或 a + c = b + d 时,所有可能的情形是对称的,双侧检验的p值等于单侧检验的p值的两倍,这时只需计算单侧检验的
p值即可。
总的来说,Fisher's exact test是最普适的,但为什么它远没有Pearson卡方检验有名呢?究其原因,卡方检验流传甚广的原因主要是计算简便,很多情况下不需计算器徒手就能算出来,相比之下,Fisher精确检验在大样本情况下,在没有计算机的时代几乎算不出来。理论上来说,Fisher精确检验得到的结果才是准确的,卡方检验是利用了大样本下渐近卡方分布的性质,即使是近似服从卡方分布,得到的结果仍是近似值。当然,在两组间的差异足够大的情况下,利用卡方检验得到的p值与利用Fisher精确检验得到的p值差别很小。在计算机发明以前,研究者都习惯了用卡方检验了,久而久之这成为了大家的共识。
参考资料:
卡方分布、卡方独立性检验和拟合性检验理论及其python实现
https://www.cnblogs.com/Yuanjing-Liu/p/9252844.html假设检验如何选择拒绝域?
https://www.zhihu.com/question/416079190