第十二章 多个比率的比较、独立性及拟合优度检验

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十二章 多个比率的比较、独立性及拟合优度检验

前面介绍了一个或两个总体的总体均值、比率和方差的假设检验的统计推断。接下来介绍另外三种假设检验的方法。帮助我们对总体进行统计推断。

12.1 三个或多个总体比率的相等性的检验

针对多个总体比率p_1、p_2、p_3\cdots p_k
假设:H_0:p_1=p_2=\cdots=p_k H_a:所有总体比率不全相等
如果根据样本数据和\chi^2检验计算结果表明不能拒绝H_0则我们认为k个总体比率有差异。

举例:调查不同汽车的汽车品牌忠诚度(再次购买的比率)。

  • 假设:H_0:p_1=p_2=p_3 H_a:所有总体比率不全相等
  • 已知:n_1=125 n_2=200 n_3=175
image

另外在500人有312人对自己的品牌有忠诚度,312/500=0.624;那么我们可以算出每个汽车车主还会再次购买该品牌的期望频数,即0.624n_i,从而得到下面的表。

image

检验统计量\chi^2
\chi^2=\sum\limits_{i} \sum\limits_{j} \frac{(f_{ij}-e_{ij})^2}{e_{ij}}
式子中,f_{ij}为第i行第j列的单元格的观察频数;e_{ij}代表在假定H_0为真时的第i行和第j列的单元格的期望频数。
涉及k个总体比率相等性的\chi^2检验中,上述检验统计量服从自由度为k-1的\chi^2分布,并且要求每个e_{ij}都大于等于5。

根据公式,我们进行计算,如下图所示。得到\chi^2=7.89

image

由于我们假定的时H_0:p_1=p_2=p_3,所以观察频数f_{ij}与期望频数e_{ij}应该是一致的,那么在检验统计量\chi^2计算中(f_{ij}-e_{ij})^2应该较小,且此时H_0不能被拒绝;另一方面,如果(f_{ij}-e_{ij})^2较大,则H_0可能会被拒绝。所以说总体比率相等性的\chi^2检验永远是一个上侧检验。

通过excel的计算,我们知道当\chi^2=7.89,自由度为2时的上侧面积即p-值=0.0194<0.05,所以我们拒绝H_0认为三车的车主品牌忠诚度不完全相同。

当然也可以用临界值法:对于\alpha=0.05,自由度为2的检验统计量的临界值\chi^2=5.9915,如果\chi^2>5.9915则拒绝H_0

总结:对于k \geq 3个总体,总体比率相等性的\chi^2检验的一般步骤如下:

image

多重比较方法

  1. 首先,我们取每一对总体的样本比率之差的绝对值。即|\bar p_1-\bar p_2||\bar p_1-\bar p_3||\bar p_2-\bar p_3|
  2. k个总体比率的Marascuilo成对比较方法临界值:
    CV_{ij}=\sqrt{\chi_{\alpha}^2}\sqrt{\frac{\bar p_i(1-\bar p_i)}{n_i}+\frac{\bar p_j(1-\bar p_j)}{n_j}}
    其中\chi_{\alpha}^2为显著水平为\alpha且自由度为k-1的\chi_{\alpha}^2值;\bar p_i\bar p_j总体为i和j的样本比率,n_in_j为样本容量。
    将三个样本比率代入得到CV_{12}=0.138CV_{13}=0.1379CV_{23}=0.1198
  3. 进行比较,任何成对样本比率之差的绝对值|\bar p_i-\bar p_j|超过其对应的临界值CV_{ij},则在显著水平0.05之下,成对的差是显著的,此时我们得出相应的两个总体比率不同。
    image

    从上图所示,我们只能得到,\bar p_3明显大于\bar p_1。而\bar p_2的值分别和\bar p_1以及\bar p_3都没有显著差异。

总结:

  1. 在前面介绍的使用标准正态分布和检验统计量z来比较两个总体比率的假设检验,本节使用\chi^2检验也可用于两总体比率相等的假设检验。两种方法结果相同,且\chi^2的数值时z的数值的平方。区别在于\chi^2检验只能用于相等性检验,但总体可以来源于3个及以上。
  2. 在k个总体中,每个车主有两种结果:“是”、“否”。每个总体服从二项分布。当k个总体中每一个有三个或更多种回答时,\chi^2方法有拓展应用,此时每一个总体服从多项分布。\chi^2计算的期望频数e_{ij}以及检验统计量\chi^2的计算与上述相同,不同的是原假设为对于所有总体回答变量的多项分布是相同的。k个总体中每一个都有r种回答,则检验统计量\chi^2的自由度为(r-1)(k-1)

12.2 独立性检验

\chi^2检验的一个重要应用是利用样本数据检验两个分类变量的独立性,称作独立性检验(test of independence)

举例:抽取200名饮酒者组成样本,看他们对三种类型的啤酒偏好程度。研究问题是:啤酒的偏好是否与饮酒者性别独立。

  • 独立性检验的假设:H_0:啤酒偏好与饮酒者性别独立 H_a:啤酒偏好与饮酒者性别不独立。数据如下图所示:

    image

  • 将性别作为解释变量,(因为想探究性别对啤酒偏好的影响)。

  • 三种类型啤酒的样本比率或百分比如下:


    image
  • 首先计算e_{ij}=\frac{第i行合计数 \times 第j列的合计数}{样本容量}得到下表

    image

按照公式计算\chi^2
\chi^2=\sum\limits_{i} \sum\limits_{j} \frac{(f_{ij}-e_{ij})^2}{e_{ij}}
对于r行c列的表,\chi^2的自由度为(r-1)\times(c-1),且期望频数都大于等于5。

下面是计算过程:

image

\chi^2=6.45 在自由度为2的上侧面积即p值为0.0398,所以拒绝H_0

使用临界值法的话,可以计算\alpha=0.05 且自由度为2时\chi^2的临界值为5.991,如果\chi^2大于5.991则拒绝H_0

对于不同性别对啤酒的偏爱如图所示:


image

总结

image

12.3 拟合优度检验

本节,我们使用\chi^2来确定被抽样的总体是否符合某个特殊的概率分布。首先考虑总体服从一个历史的多项概率分布情形,并使用拟合优度检验来确定样本数据的总体分布在与历史的分布相比较中,是否存在改变。然后考虑假设总体服从正态概率分布的情形,我们利用分布拟合检验来确定样本数据是否显示与正态概率分布的假设是适当还是不适当。这两个检验都称作拟合优度检验

12.3.1 多项概率分布

多项概率分布,总体中每个个体都被分到三个或多个类别中的一个。

举例:市场调研公司调查三个公司的市场份额,在过去一年中份额为:p_A=0.3p_B=0.5p_c=0.2;C公司有了新产品,想知道新产品上线是否对市场份额产生影响。
假设c公司新产品上市后的市场占有率:H_0:p_A=0.3,p_B=0.5,p_C=0.2 H_a:总体比率不是p_A=0.3,p_B=0.5,p_C=0.2
现取样本n=200得到观察频数如图所示:

image

再计算期望频数:
image

计算拟合优度的检验统计量
\chi^2=\sum \limits_{i=1}^k \frac{(f_i-e_i)^2}{e_i}
f_i为第i类的观察频数;e_i为第i类的期望频数;k为类别个数
注意:当所有类别的期望频数都大于等于5时,检验统计量服从自由度为k-1\chi^2分布。

我们令显著水平\alpha=0.05,经过下面的计算过程得到\chi^2=7.34

image

再利用excel计算\chi^2=7.34在自由度df=2的上侧面积为0.0255<0.05
或者用临界值法,计算自由度为2且上侧面积为0.05的\chi^2=5.991
两种方法的结论都为拒绝H_o,认为C公司在新产品引入后的新市场份额与原来不同。
两个市场份额对比如下:
image

image

看到C公司的新品对A公司的市场占有率影响更大。

总结:对假设的多项总体分布进行拟合优度检验的步骤

image

12.3.2 正态分布

举例:公司对员工进行能力测验,如果服从正态分布,就好判断谁是后20%的人。

  • 现取样本容量为n=50
  • 点估计值:\bar x=68.42 s=10.41
  • 假设:H_0:测验分数总体服从均值为68.42和标准差为10.41的正态分布 H_a:测验分数总体不服从均值为68.42和标准差为10.41的正态分布
  • 将正态分布划分10个等概率区间,计算每个区间的边界z值(需要满足每个区间的期望频数大于等于5),这样做是因为正态分布是连续型的,我们需要用区间来定义类别。


    image
  • 计算出每个区间的边界的z值和对应的测验分数


    image
  • 统计每个区间的观察频数(f_i)和期望频数(e_i)
    image
  • 根据观察频数(f_i)和期望频数(e_i)计算\chi^2=\sum \limits_{i=1}^k \frac{(f_i-e_i)^2}{e_i}=7.2,其中自由度为k-p-1=10-2-1=7这里的p指是有样本估计的分布参数的个数(这里指的样本均值和样本标准差,使用的样本估计值)。
    image

假设显著水平为0.1,通过计算自由度为7,\chi^2=7.2的上侧面积即p-值为0.4084>0.1。因此不能拒绝H_0

总结:正态分布的拟合优度检验步骤如下

image

image


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容