浅谈卡方(chi,x2)和关联性分析

统计学中,很多分析方法其实共用了同种统计模型,理解这些模型的意义可以帮助非数理专业的人员更好的利用这些模型来解决实际问题。今天我就来简单谈谈卡方检验和相关性之间的联系吧。(鉴于本文针对于非数理方向人员,关于卡方(chi,X^2)分析和相关性的基本概念和原理我就不在这里一一介绍了,不了解的可以先参考一些书籍或链接)

先说一下卡方,对于医学等非专业的学生来说,提到卡方往往第一个想到的就是卡方检验,这是一种非数理专业人员对统计模型容易形成的一种刻板印象;卡方,第一个想起的应该是卡方分布,这是我们课本上少有提及的一个概念,就如F分布,t分布一样;卡方分布,是几乎所有应用卡方值的数理统计基础,卡方检验只是用于该值的其中一种分析罢了。

直接上图!

我们先来看卡方(X^2)这个值,在第七版卫生统计学中,这个值有一个通用公式:

式(1)                                                          X^2 =\Sigma \frac{(A-T)^2 }{T}                                                        A指每个单元格的实际频数,T值每个单元格理论频数。不管是卡方分析,还是相关性分析还是拟合优度检验,只要是计算卡方值,其基本原理都是式(1)。

卡方检验

多独立样本

顾名思义是由多个独立样本样本组成,在卡方检验中,当这种数据结构为2*2的列联表时(既两个独立样本),X^2公式可写由式(1)变形为专用公式:

式(2)                                                          X^2=\frac{(ab-bc)^2*n}{(a+b)(c+d)(a+c)(b+d)}

如果是R*C列联表资料(两个以上的独立样本)由专用公式:

式(3)                                                          X^2=n(\sum_{i=1}^R \sum_{j=1}^C \frac{A_{ij}^2 }{mi*nj}-1 )

单样本

既只抽取一份样本。在单样本的实验设计中,不管式卡方检验还是相关性分析,基本上均为配对实验,既样本中每个个体同时拥用所研究两个属性的值。如下图:

图1

书上提到两种方法的是否有差别只反映在b、c上,与a、d无关。其实可以把这句话理解为,两种方法的阳性率是否有差别,即方法一的阳性率:n1/n; 方法二的阳性率:n2/n;两式相减即可得到只与b、c有关。

仍以式(1)为基础原理,即得配对2*2列联表卡方值公式:

式(4)                                                            X^2=\frac{(b-c)^2}{b+c}

该法也称McNemar检验;

配对R*R列联表的卡方值公式为:

式(5)                                                             T=\frac{R-1}{R} \sum_{i=1}^R\frac{(ni-mi)^2}{ni+mi-2Aii}

可将R=2,带入式(5)可得到式(4),由此可知式(5)为式(4)的推广。

关联性分析    

可以归纳为总结一份样本中两变量的关联性。当遇见无序分类变量时,常用卡方值来做关联性分析。

图2

2*2列联表的卡方值:X^2=\frac{(ab-bc)^2*n}{(a+b)(c+d)(a+c)(b+d)} ,同式(2)

R*C列联表的卡方值:X^2=n(\sum_{i=1}^R \sum_{j=1}^C \frac{A_{ij}^2 }{mi*nj}-1 ),同式(3).


到这里,基本上已经把卡方检验和关联性分析中的不同实验设计的卡方值的计算公式罗列出来了。接下来是比较。

从应用目的上来看,卡方检验是比较分布频率是否有差异,关联性分析是判定两变量的关联程度。这里我们主要在从上述列出的公式中寻找规律;在上面所列出的公式里,我们不难看出这两种分析的密切程度,都共享一个统计量,公式也互相联系。

从数据结构上来看,关联性分析中的样本其实相当于卡方检验中的单样本检验(配对设计),其样本总数n是已经确定的,但是在公式上,关联性分析的卡方值计算公式却更接近与卡方检验的多独立样本。所以发现关联性分析和卡方检验的数据结构和公式不是对应的关系。为什么呢?

要解决这个问题,我认为最好从他们各自的提出假设阶段入手。

在多独立样本的卡方检验中,其假设检验为:多种处理或组别的效果或结果是否有差异。可以把图1分陈成如下两图:

换句话来说:比较甲、乙在在属性Y中的分布是否相同。所以这里的卡方值与四个单元格里面的频数都有关,是甲、乙之间的比较。

而在无序变量中关联性分析中,提出的假设为:两种属性(X和Y)是否关联,或者两种属性是否独立。这里所谓独立,书上的原话是:

属性X的概率分布和属性Y的概率分布无关。

为了更容易理解,我将图2分解成:


X频数分布


Y频数分布

其是否独立(或相关)可以解释为当变量X,X1变为X2时,样本在Y属性上的分布是否发生变化,或者Y,Y1变为Y2时,样本在X属性上的分布是否发生变化。

而单样本(配对设计)的卡方检验,我在上面已经提到过,其卡方值只与b和c有关。

所以在公式上多独立样本的卡方检验与使用卡方值的关联性分析有这更深的关系,而且在数据结构中,都是横向或纵向的对比。

最后我还想引用书上的一句原话:

交叉分类资料独立性检验与比较两独立样本频率的假设检验所用的卡方值公式、理论频数计算公式和自由度的计算公式完全相同...但是,必须注意,这两类问题的研究目的、设计方案、数据结构以及结果解释都不相同。

PS: 这是我第一次在网上发的文章,思路可能有些乱,我的解读可能也有些错误,欢迎大家指出,自己能力有限,涉及的范围也不是特别深入也不敢特别深入。最终目的还是希望能找到和我一样(非数理专业)喜欢并且以后很可能从事统计相关工作的朋友,可以和大家在网上多多交流,共同进步。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,680评论 0 3
  • 白话“卡方检验” 什么是“卡方检验”? 卡方检验是假设检验的一种,用于分析两个类别变量的相关关系,是一种非参数假设...
    李威威阅读 11,703评论 2 49
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,806评论 0 3
  • 文|程瑞林(山东大学第二医院足踝外科)来源|(微信公众号)云中瑞麟(ID:ruilinfly) 瑞麟导读:对于计量...
    云中瑞麟阅读 145,181评论 10 69
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,889评论 0 3