参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第十章 两总体均值和比例的推断
10.1 两总体均值之差的推断:和已知
我们令总体1的均值为,总体2的均值为,我们关注两个均值之差:的统计推断。分别从总体1和总体2抽取简单随机样本和,由于这两个样本是相互独立抽取的,所以称作独立简单随机样本。
10.1.1 的区间估计
举例:对市区和郊区两个购物中心的顾客年龄差异进行区间估计。
当两个总体都服从正态分布,或者样本容量足够大;此时根据中心极限定理可以得出、和都服从正态分布。
- 和为两个总体的均值
- 和是两个样本的均值
- 和是两个样本的样本容量
- 和是两个总体的标准差,这里已知
- 两总体均值之差的点估计量:
- 的标准误差:
- 边际误差= 其中为置信系数
回到例子:
将值代入公式进行区间估计:
10.1.2 的假设检验
令表示假设的差,假设检验的三种形式如下:
的假设检验的检验统计量:和已知:
举例:两个校区学生成绩,已知,显著水平, ,
假设:
接下来计算p-值,z=1.66的上侧面积0.0485,由于是双侧检验p-值=所以我们不能拒绝
当然也可以使用临界值,先求出上侧面积为0.025的z值为1.96,由于所以也不能拒绝
10.1.3 实用建议
两个随机样本一般都要求大于30,但是如果不满足的话,总体需要是服从正态分布的。
10.2 两总体均值之差的推断:和未知
由于总体标准差未知,我们在区间估计和假设检验的过程钟将建立在t分布的基础上。
10.2.1 的区间估计
举例:比较两个分行客户支票账户余额的差异。
两总体均值之差的区间估计:和未知
自由度:两个独立随机样本的t分布:
回到例子,我们把两个随机样本的样本容量n和标准差s代入上述公式,则,遇到带小数点的,我们为了保守起见向下取整为47。置信水平取,
则区间估计为:
10.2.2 的假设检验
关键在于检验统计量的计算,这里使用t分布。
的假设检验的检验统计量:和未知:
t的自由度和区间估计使用一样的公式计算:
举例:使用新的软件包是否减少了开发时间,为老技术,为新技术。
假设:
取0.05的置信水平。
使用excel计算得到t=2.27自由度为21的上侧面积为0.0169<0.05。所以我们拒绝,那么认为新技术确实降低了开发时间。
10.2.3 实用建议
当两个总体的样本容量相近时,至少为20时,即时总体不是正态分布也可以得到较好的结果。
另外当时,样本方差和检验统计量t可以用下面的公式(自由度为)
10.3 两总体均值之差的推断:匹配样本
举例:两种生产方法,想看下哪个更好。为方法1的总体完成任务的平均时间,为方法2的。假设
抽样方案有两种:
- 独立样本:两个随机样本用两种方法
- 匹配样本:一批工人,随机先后用两种方法生产(误差往往更小,剔除了工人差异的影响)
匹配样本设计:
令表示工人总体数值之差的平均值。利用该符号重新写假设:
由于是小样本,我们需要假设差值总体是服从正态分布。
匹配样本假设检验的检验统计量自由度为n-1:
代入可得t=2.2,自由度为5。然后计算可得此时得上侧面积为0.0395,由于是双侧检验,所以p-值=所以我们不能拒绝
两总体均值之差得区间估计(95%得置信水平):
10.4 两总体比例之差的推断
下面来讨论两总体比例之差的统计推断
10.4.1 的区间估计
举例:报税公司两个办事处的申报单出错比例
对应的总体和样本的出错率:
两总体比例之差的点估计:
的标准误差:
服从正态分布的条件:两个样本的和都大于等于5。
两总体比例之差的区间估计:
回到上述例子:
取90%的置信区间
10.4.2 的假设检验
以下三种假设检验的形式:
的标准误差:
当使用第三种假设时的标准误差:
当使用第三种假设时,p的合并估计量:(实质就是和的加权平均值)
的假设检验的检验统计量:
以上述报税公司的例子: 取显著水平
用excel计算z=1.85的上侧面积,得到0.322,由于是双侧检验p-值需要乘以2得到所以拒绝认为两个出错概率不同。
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦