卡方检验

今天我们公司的一个做数据的女孩子问我卡方检验问题,女孩子的问题不管怎么样都要回答的,也帮他解决了,虽然这是一个简单的统计方法,正好我最近打算梳理一下用LR做评分卡WOE那部分就把卡方检验梳理一下。

什么是卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(这部分是百科里面抄过来的应该比较权威)

上例子

话说,说完概念就不应该太啰嗦,应该用例子来说明,一看就能看懂,我要举的这个例子也是网上的,但是我觉得这例子是我精挑细选的,保证你几分钟能看懂。

例子讲的是喝牛奶对感冒的影响(我们想知道喝牛奶对感冒发病率有没有影响

从这图可以看出喝牛奶对感冒是有影响的,但是其实不一定因为很大可能是我们抽样,抽样的样本太少的原因。所以不能完全统计到。

为了得到喝牛奶对感冒发病率有没有影响,我们假设两个条件是独立的,就是喝牛奶和感冒是没有任何联系的。

所以我们现在算一个数就是不管喝不喝牛奶的总人数里面感冒的占整体人数的比例

(43+28)/(43+28+96+84)= 28.29%

我们算出每组数的期望,得到如何下表:

如果喝牛奶喝感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。

卡方检验的计算公式为:

其中,A为实际值,T为理论值。

x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:

1. 实际值与理论值偏差的绝对大小(由于平方的存在,差异是被放大的)

2. 差异程度与理论值的相对大小

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 交叉分类(列联表)和卡方检验 交叉分类问题 比较和对照是进行科学研究的基本手段。对于间距测度和比例测度的资料,进行...
    雨一流阅读 19,053评论 0 4
  • 知识点 卡方分布(Chi-square distribution) 四格表资料的卡方检验 配对四格表的卡方检验 四...
    x2yline阅读 22,137评论 0 17
  • 卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的...
    姚的日志阅读 2,673评论 0 1
  • 文/叶丹颖 1 立春 我在房子里度过 我的房子没有立春 立春在我的手机里 ——宅女也有春天。 2 你叫床的声音, ...
    树姑娘阅读 491评论 3 5
  • 又是一年高考季,看到刷爆朋友圈的备考信息,又勾起无尽的回忆。 真正对高考有点认识,是从上初中开始,那时候还是七月高...
    宝妈成长自习室阅读 254评论 0 2