统计学中,很多分析方法其实共用了同种统计模型,理解这些模型的意义可以帮助非数理专业的人员更好的利用这些模型来解决实际问题。今天我就来简单谈谈卡方检验和相关性之间的联系吧。(鉴于本文针对于非数理方向人员,关于卡方(chi,)分析和相关性的基本概念和原理我就不在这里一一介绍了,不了解的可以先参考一些书籍或链接)
先说一下卡方,对于医学等非专业的学生来说,提到卡方往往第一个想到的就是卡方检验,这是一种非数理专业人员对统计模型容易形成的一种刻板印象;卡方,第一个想起的应该是卡方分布,这是我们课本上少有提及的一个概念,就如F分布,t分布一样;卡方分布,是几乎所有应用卡方值的数理统计基础,卡方检验只是用于该值的其中一种分析罢了。
直接上图!
我们先来看卡方()这个值,在第七版卫生统计学中,这个值有一个通用公式:
式(1) A指每个单元格的实际频数,T值每个单元格理论频数。不管是卡方分析,还是相关性分析还是拟合优度检验,只要是计算卡方值,其基本原理都是式(1)。
卡方检验
多独立样本
顾名思义是由多个独立样本样本组成,在卡方检验中,当这种数据结构为2*2的列联表时(既两个独立样本),公式可写由式(1)变形为专用公式:
式(2)
如果是R*C列联表资料(两个以上的独立样本)由专用公式:
式(3)
单样本
既只抽取一份样本。在单样本的实验设计中,不管式卡方检验还是相关性分析,基本上均为配对实验,既样本中每个个体同时拥用所研究两个属性的值。如下图:
书上提到两种方法的是否有差别只反映在b、c上,与a、d无关。其实可以把这句话理解为,两种方法的阳性率是否有差别,即方法一的阳性率:n1/n; 方法二的阳性率:n2/n;两式相减即可得到只与b、c有关。
仍以式(1)为基础原理,即得配对2*2列联表卡方值公式:
式(4)
该法也称McNemar检验;
配对R*R列联表的卡方值公式为:
式(5)
可将R=2,带入式(5)可得到式(4),由此可知式(5)为式(4)的推广。
关联性分析
可以归纳为总结一份样本中两变量的关联性。当遇见无序分类变量时,常用卡方值来做关联性分析。
2*2列联表的卡方值:,同式(2)
R*C列联表的卡方值:,同式(3).
到这里,基本上已经把卡方检验和关联性分析中的不同实验设计的卡方值的计算公式罗列出来了。接下来是比较。
从应用目的上来看,卡方检验是比较分布频率是否有差异,关联性分析是判定两变量的关联程度。这里我们主要在从上述列出的公式中寻找规律;在上面所列出的公式里,我们不难看出这两种分析的密切程度,都共享一个统计量,公式也互相联系。
从数据结构上来看,关联性分析中的样本其实相当于卡方检验中的单样本检验(配对设计),其样本总数n是已经确定的,但是在公式上,关联性分析的卡方值计算公式却更接近与卡方检验的多独立样本。所以发现关联性分析和卡方检验的数据结构和公式不是对应的关系。为什么呢?
要解决这个问题,我认为最好从他们各自的提出假设阶段入手。
在多独立样本的卡方检验中,其假设检验为:多种处理或组别的效果或结果是否有差异。可以把图1分陈成如下两图:
换句话来说:比较甲、乙在在属性Y中的分布是否相同。所以这里的卡方值与四个单元格里面的频数都有关,是甲、乙之间的比较。
而在无序变量中关联性分析中,提出的假设为:两种属性(X和Y)是否关联,或者两种属性是否独立。这里所谓独立,书上的原话是:
属性X的概率分布和属性Y的概率分布无关。
为了更容易理解,我将图2分解成:
其是否独立(或相关)可以解释为当变量X,X1变为X2时,样本在Y属性上的分布是否发生变化,或者Y,Y1变为Y2时,样本在X属性上的分布是否发生变化。
而单样本(配对设计)的卡方检验,我在上面已经提到过,其卡方值只与b和c有关。
所以在公式上多独立样本的卡方检验与使用卡方值的关联性分析有这更深的关系,而且在数据结构中,都是横向或纵向的对比。
最后我还想引用书上的一句原话:
交叉分类资料独立性检验与比较两独立样本频率的假设检验所用的卡方值公式、理论频数计算公式和自由度的计算公式完全相同...但是,必须注意,这两类问题的研究目的、设计方案、数据结构以及结果解释都不相同。
PS: 这是我第一次在网上发的文章,思路可能有些乱,我的解读可能也有些错误,欢迎大家指出,自己能力有限,涉及的范围也不是特别深入也不敢特别深入。最终目的还是希望能找到和我一样(非数理专业)喜欢并且以后很可能从事统计相关工作的朋友,可以和大家在网上多多交流,共同进步。