统计之美:如何优雅理解卡方分布与卡方检验之精髓所在?(重磅)

今天吃到味道极好的一道菜,你会不会想这个菜是怎么炒出来的,为啥这么好吃?


卡方分布是统计学中最重要的分布之一,卡方检验是以卡方分布为基础的一种假设检验方法。

   一、χ²分布   

χ2分布是由阿贝(Abbe)于1863年提出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来。

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成新的随机变量X,变量X的分布规律称为卡方分布(chi-square distribution),用χ²表示。

χ²分布是一种只由自由度ν一个参数决定的连续型分布,其概率密度函数如下:

概率密度曲线如图1:

图1 概率密度函数曲线(k为自由度)


图2 

函数我们是记不住的,根本记不住!!!

但定义很好记,一句话就是“正态变量平方和的分布就是卡方分布”,并且由图1和图2可知,χ²分布为一簇单峰正态分布曲线,当自由度ν≤2时,曲线呈L型;随着ν的增加,曲线逐渐趋于对称;当自由度ν→∞时,分布趋于正态分布。

此外卡方分布还有一些特点,平均值E(χ2)=ν,方差为:D(χ2)=2ν,概率分布曲线下面积为1。

所以,可以说卡方分布其实源自于正态分布。

   二、由卡方分布过渡到方差抽样分布   

不知道你有没有发现,最重要的问题还是来了。

上面讲的是n个独立的随机变量,但实际工作中,我们往往要分析的是来自总体的某样本,怎么办呢?

样本方差(s2)是可以根据样本计算,n为样本数,(n-1)*样本方差除以总体方差(σ2),就构造了一个新的变量Q,这个新的变量Q服从自由度为n-1的卡方分布。

新变量Q:

有点不好理解吧,为啥这个新的变量服从卡方分布呢?

其一,卡方分布是正态变量平方和的分布,这里总体方差已知,当成一个固定值,那么变量就是样本方差,样本方差就是正态变量的平方和除以(n-1)呀。

其二,然后,因为计算样本方差的时候除了n-1,那么最终构建的新变量乘以n-1,这样其实就转化为了正态变量的平方和了,是服从卡方分布的。

其三,为什么这里的自由度是n-1,而不是n。究其原因在于样本数为n,意味着只有 n-1 个是独立取值的,剩余一个为平均值。

所以呀,可以使用卡方分布来构造总体方差的置信区间。

在1-α置信水平下:

所以可得总体方差置信区间为:

三、由卡方分布过渡到卡方检验

同样的道理,在实际应用中,可用χ²分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差,表示观察值与理论值之问的偏离程度。

  • 设Ai代表某个类别的观察频数,Ti代表基于零假设计算出的理论频数,Ai与Ti之差称为残差。

  • 残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与理论频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,因此可以将残差平方后求和。

  • 残差大小是一个相对的概念,相对于理论频数为10时,理论频数为20的残差非常大,但相对于期望频数为1000时20的残差就很小了。考虑到这一点,又将残差平方除以理论频数再求和,以估计观察频数与理论频数的差别。

所以有了上述公式,并且服从卡方分布。

   四、χ²检验的基本思想   

举例:某研究者想比较成年男性和女性高血压发生率是否有差异,随机抽取200名成年男性和185名成年女性,其中男性高血压患者43名,女性高血压20名,想知道这个差异是抽样误差所致还是确实如此,该问题可用卡方检验来回答。

H0:男性组和女性组总体分布相同,π1=π2=π

H1:男性组和女性组总体分布不同,π1≠π2

上述为2×2列联表,基于H0成立,则两组的总体概率应该近似等于合并估计的概率,即π≈m1/n。

这个能否理解?

按照公式:

第一步,我们先得计算理论频数,T11=n1×π=n1×m1/n=200×63/385=33

则剩余几个理论频数分别为:T12=200-33=167,T21=63-33=30,T22=185-30=155。这就是基于H0假设成立,得到的理论分布情况,此时的四格表为:

括号内红色为理论频数,然后计算卡方值:

这是基于四格表基本公式计算出来的,还可以利用四格表专用公式计算:

得出χ²=7.608,自由度ν=1,查卡方分布表得知:

3.841<7.608,χ²值越大,概率越小。

所以,在α=0.05检验水准下,拒绝H0,差别有统计学意义,可认为成年男性和女性的高血压发生率不同。


统计学和数学之美,体现在它们对现实世界深刻而独特的理解方式上,它们不仅提供了解决问题的工具和方法,还揭示了隐藏在数据背后的规律和模式,让人们能够以更精准、更量化的方式来认识和解释世界。





©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,063评论 6 510
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,805评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,403评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,110评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,130评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,877评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,533评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,429评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,947评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,078评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,204评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,894评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,546评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,086评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,195评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,519评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,198评论 2 357

推荐阅读更多精彩内容