第十章 两总体均值和比例的推断

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第十章 两总体均值和比例的推断

10.1 两总体均值之差的推断:\sigma_1\sigma_2已知

我们令总体1的均值为\mu_1,总体2的均值为\mu_2,我们关注两个均值之差:\mu_1-\mu_2的统计推断。分别从总体1和总体2抽取简单随机样本n_1n_2,由于这两个样本是相互独立抽取的,所以称作独立简单随机样本

10.1.1 \mu_1-\mu_2的区间估计

举例:对市区和郊区两个购物中心的顾客年龄差异进行区间估计。
当两个总体都服从正态分布,或者样本容量足够大;此时根据中心极限定理可以得出\bar x_1\bar x_2\bar x_1-\bar x_2都服从正态分布。

image
  • \mu_1\mu_2为两个总体的均值
  • \bar x_1\bar x_2是两个样本的均值
  • n_1n_2是两个样本的样本容量
  • \sigma_1\sigma_2是两个总体的标准差,这里已知
  • 两总体均值之差的点估计量:\bar x_1- \bar x_2
  • \bar x_1- \bar x_2的标准误差:\sigma_{\bar x_1- \bar x_2}=\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}
  • 边际误差=z_{\alpha/2}\sigma_{\bar x_1- \bar x_2}=z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} 其中1-\alpha为置信系数

回到例子:

  • \sigma_1=9 \sigma_2=10
  • n_1=36 n_2=49
  • \bar x_1=40 \bar x_2=35

将值代入公式进行区间估计:
\bar x_1-\bar x_2 \pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}
5 \pm 4.06

10.1.2 \mu_1-\mu_2的假设检验

D_0表示\mu_1-\mu_2假设的差,假设检验的三种形式如下:

image

\mu_1-\mu_2的假设检验的检验统计量:\sigma_1\sigma_2已知:
z=\frac{(\bar x_1-\bar x_2)-D_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}

举例:两个校区学生成绩,已知\sigma_1=\sigma_2=10,显著水平\alpha=0.05n_1=30 n_2=40\bar x_1=82 \bar x_2=78
假设:H_0:\mu_1-\mu_2=0 H_a:\mu_1-\mu_2 \neq0
z=\frac{(\bar x_1-\bar x_2)-D_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}=\frac{(82-78)-0}{\sqrt{\frac{10^2}{30}+\frac{10^2}{40}}}=1.66
接下来计算p-值,z=1.66的上侧面积0.0485,由于是双侧检验p-值=2\times 0.0485=0.0969>\alpha=0.05所以我们不能拒绝H_0

当然也可以使用临界值,先求出上侧面积为0.025的z值为1.96,由于z\leq 1.96所以也不能拒绝H_0

10.1.3 实用建议

两个随机样本一般都要求大于30,但是如果不满足的话,总体需要是服从正态分布的。

10.2 两总体均值之差的推断:\sigma_1\sigma_2未知

由于总体标准差未知,我们在区间估计和假设检验的过程钟将建立在t分布的基础上。

10.2.1 \mu_1-\mu_2的区间估计

举例:比较两个分行客户支票账户余额的差异。


image

两总体均值之差的区间估计:\sigma_1\sigma_2未知
\bar x_1-\bar x_2 \pm t_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}

自由度:两个独立随机样本的t分布
df=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{s_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{s_2^2}{n_2}\right)^2}

回到例子,我们把两个随机样本的样本容量n和标准差s代入上述公式,则df=47.8,遇到带小数点的,我们为了保守起见向下取整为47。置信水平取\alpha=0.05t_{\alpha/2}=2.012
则区间估计为:115 \pm 78

10.2.2 \mu_1-\mu_2的假设检验

关键在于检验统计量的计算,这里使用t分布。
\mu_1-\mu_2的假设检验的检验统计量:\sigma_1\sigma_2未知
t=\frac{(\bar x_1-\bar x_2)-D_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}

t的自由度和区间估计使用一样的公式计算:df=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{s_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{s_2^2}{n_2}\right)^2}

举例:使用新的软件包是否减少了开发时间,\mu_1为老技术,\mu_2为新技术。
假设:H_0:\mu_1-\mu_2\leq 0 H_a:\mu_1-\mu_2>0
取0.05的置信水平。

image

t=\frac{(\bar x_1-\bar x_2)-D_0}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}=\frac{(325-286)-0}{\sqrt{\frac{40^2}{12}+\frac{44^2}{12}}}=2.27
df=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{1}{n_1-1}\left(\frac{s_1^2}{n_1}\right)^2+\frac{1}{n_2-1}\left(\frac{s_2^2}{n_2}\right)^2}=\frac{\left(\frac{40^2}{12}+\frac{44^2}{12}\right)^2}{\frac{1}{12-1}\left(\frac{40^2}{12}\right)^2+\frac{1}{12-1}\left(\frac{44^2}{12}\right)^2}=21.8
使用excel计算得到t=2.27自由度为21的上侧面积为0.0169<0.05。所以我们拒绝H_0,那么认为新技术确实降低了开发时间。

10.2.3 实用建议

当两个总体的样本容量相近时,n_1+n_2至少为20时,即时总体不是正态分布也可以得到较好的结果。

另外当\sigma_1=\sigma_2时,样本方差和检验统计量t可以用下面的公式(自由度为n_1+n_2-2

image

10.3 两总体均值之差的推断:匹配样本

举例:两种生产方法,想看下哪个更好。\mu_1为方法1的总体完成任务的平均时间,\mu_2为方法2的。假设H_0:\mu_1-\mu_2=0 H_a:\mu_1-\mu_2 \neq 0
抽样方案有两种:

  1. 独立样本:两个随机样本用两种方法
  2. 匹配样本:一批工人,随机先后用两种方法生产(误差往往更小,剔除了工人差异的影响)

匹配样本设计:


image

\mu_d表示工人总体数值之差的平均值。利用该符号重新写假设:H_0:\mu_d=0 \mu_d \neq 0
\bar d=\frac{\sum d_i}{n}=\frac{1.8}{6}=0.3
s_d=\sqrt{\frac{\sum(d_i-d)^2}{n-1}}=\sqrt{\frac{0.56}{5}}=0.335
由于是小样本,我们需要假设差值总体是服从正态分布。
匹配样本假设检验的检验统计量自由度为n-1:
t=\frac{\bar d-\mu_d}{s_d/\sqrt{n}}

代入可得t=2.2,自由度为5。然后计算可得此时得上侧面积为0.0395,由于是双侧检验,所以p-值=2\times 0.0395=0.079>0.05所以我们不能拒绝H_0

两总体均值之差得区间估计(95%得置信水平)
\bar d \pm t_{0.025}\frac{s_d}{\sqrt{n}}
0.30 \pm 0.35

10.4 两总体比例之差的推断

下面来讨论两总体比例之差p_1-p_2的统计推断

10.4.1 p_1-p_2的区间估计

举例:报税公司两个办事处的申报单出错比例
对应的总体和样本的出错率:p_1 p_2 \bar p_1 \bar p_2
两总体比例之差的点估计:\bar p_1-\bar p_2
\bar p_1-\bar p_2的标准误差:\sigma_{\bar p_1-\bar p_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}
\bar p_1-\bar p_2服从正态分布的条件:两个样本的npn(1-p)都大于等于5。
两总体比例之差的区间估计:
\bar p_1-\bar p_2\pm z_{\alpha/2}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}

回到上述例子:
p_1=0.14 p_2=0.09 n_1=250 n_2=300 取90%的置信区间
0.14-0.09 \pm 1.645\sqrt{\frac{0.14(1-0.14)}{250}+\frac{0.09(1-0.09)}{300}}
0.05 \pm 0.045

10.4.2 p_1-p_2的假设检验

以下三种假设检验的形式:


image

\bar p_1-\bar p_2的标准误差:\sigma_{\bar p_1-\bar p_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}
当使用第三种假设p_1=p_2=p\bar p_1-\bar p_2的标准误差\sigma_{\bar p_1-\bar p_2}=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}=\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}
当使用第三种假设p_1=p_2=p时,p的合并估计量\bar p=\frac{n_1\bar p_1+n_2\bar p_2}{n_1+n_2}(实质就是\bar p_1\bar p_2的加权平均值)
p_1-p_2的假设检验的检验统计量z=\frac{\bar p_1-\bar p_2}{\sqrt{\bar p(1-\bar p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}

以上述报税公司的例子:H_0:p_1-p_2=0 H_a:p_1-p_2 \neq 0 取显著水平\alpha=0.1

\bar p=\frac{n_1\bar p_1+n_2\bar p_2}{n_1+n_2}=\frac{250\times 0.14 + 300\times 0..09}{250+300}=0.1127
z=\frac{\bar p_1-\bar p_2}{\sqrt{\bar p(1-\bar p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}=\frac{0.14-0.09}{\sqrt{0.1127 \times (1-0.1127)\left(\frac{1}{250}+\frac{1}{300}\right)}}=1.85
用excel计算z=1.85的上侧面积,得到0.322,由于是双侧检验p-值需要乘以2得到0.0643<0.1所以拒绝H_0认为两个出错概率不同。


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容