参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)
第七章 抽样和抽样分布
从中抽取样本的总体叫作抽样总体,抽样框是用于抽选样本的个体清清单。抽样的总体也分有限和无限。
7.1 EAI公司的抽样问题
公司想调查2500名管理的年薪和完成培训计划的人数占比。年薪均值,标准差
有1500名管理完成了培训计划。
总体的数字特征称作参数(parameters),将总体中完成培训计划的人员比例叫做p,
如果我们不能提取2500名管理的资料,那么我们可以抽样。
7.2 抽样
有限总体抽样、无限总体抽样
7.2.1 有限总体抽样
建议:概率抽样,因为此时的样本能对总体进行有效的统计推断
简单随机样本(有限总体):从容量为N的总体中抽取容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则该样本称为简单随机样本。
无放回抽样&放回抽样:我们可以根据随机数表来进行抽样
7.2.2 无限总体抽样
总体容量无限大或者总体中的个体是在一个运行的过程产生的。对于无限总体,我们无法构建一个包含全部个体的抽样框。
建议:随机样本
随机样本(无限总体)的满足条件:
- 抽取的每个个体来自同一个总体
- 每个个体的抽取是独立的
如快餐店就餐顾客的抽样(顾客光顾快餐店是一个正在进行的过程),要保障条件1首先就要排除那些来白嫖厕所的;保障条件2就难了,因为调查员在选择顾客的时候有倾向(比如年轻、好说话的)。
麦当劳的解决方法:用优惠券的下一名顾客进入样本(因为用优惠券的概率是随机的)
7.3 点估计
与总体参数对应的样本特征——样本统计量
比如前面的EAI公司,算出来30名管理员组成的样本统计量,
,
。
此时为总体均值
的点估计量,
为总体标准差
的点估计量,
为总体比率
的点估计量。
称为点估计值。
点估计值和总体参数是有差异的,下一章来讲如何构造区间估计。
7.3.1 应用中的建议
尽量让抽样总体(样本)和目标总体(想要推断的总体)保持高度一致。
7.4 抽样分布简介
如果我们对EAI公司的取样,取500次,那就有500组点估计值。
那么每次取样相当于一次试验,就是一个随机变量。那么
的概率分布称作:
的抽样分布。
和
都是钟形图
7.5
的抽样分布
的抽样分布:
的抽样分布是样本均值
的所有可能值的概率分布。
7.5.1
的数学期望
公式: 这里的
好像式总体的均值
当点估计值等于总体参数时,我们称这个点估计量是无偏的(unbiased)
7.5.2
的标准差
-
——
的标准差(均值的标准误差)
-
——总体标准差
-
——样本容量
-
——总体容量
其中的标准差公式与总体是否有限相关:
- 有限总体:
- 无限总体:
有限总体需要系数,我们称为有限总体修正系数。当N足够大的时候,也可以忽略这个修正系数,把计算出来的值看作近似。
实际计算时:
注意:1、总体无限;或2、总体有限,但
一般说总体容量足够大就是满足
7.5.3
的抽样分布形式
的概率分布形式的确定需要考虑下面两种情形:
- 总体服从正态分布
- 总体不服从正态分布,可以借助中心极限定理帮助我们确定
的抽样分布的形状。
中心极限定理:从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值的抽样分布近似服从正态概率分布。(只要样本量大,那就服从正态分布)
那我们需要多大得样本才合适呢?
一般
总体严重偏态或有异常点:
总体为离散型:按比例来取n
7.5.4 EAI问题中
的抽样分布
没啥说的
7.5.4
的抽样分布的实际值
回到EAI公司的问题,我们知道总体均值时51800美元,假如我们能接受的误差是
我们可以通过转化为标准正态分布来求得样本均值和总体均值的差在内的概率大约为50%
7.5.6 样本容量与
的抽样分布的关系
前面提到样本容量为30时,样本均值就服从正态分布了。不过n更大时,样本均值的估计会更好。
,所以n越大,
越小。
回到EAI公司的问题,我们转化为标准正态分布,当n为100时,点估计值距离总体均值500以内的概率为0.7888。
7.6
的抽样分布
的抽样分布式样本比率
的所有可能值得概率分布。
7.6.1
的数学期望
7.6.2
的标准差
的标准差公式与总体是否有限相关:
- 有限总体:
- 无限总体:
时也可以用后者来计算。
7.6.3
的抽样分布的形态
样本中x是否已经参加培训服从二项分布,所以x的二项概率等于x/n,的抽样分布是一个离散型的概率分布。
由于且
,此时二项分布可以用正态分布近似。
7.6.4
的抽样分布的实际应用
比如计算在
的概率多少
excel中可以用NORMDIST(x,均值,标准差,TRUE)来返回累计概率
7.7 点估计的性质
代表总体参数(均值、标准差、比率等)
代表样本统计量(样本均值、样本标准差、样本比率等)(读theta尖)
7.7.1 无偏性
时,称样本统计量时相应总体参数的无偏估计量
对于样本标准差和方差,如果时,样本方差
是总体方差
的无偏估计量。(样本方差计算时分母n-1,就是为了使样本方差是总体方差的无偏估计量)
7.7.2 有效性
如果一个简单随机样本由n个个体组成,给出了总体同一参数的两个不同的无偏点估计量,这时更强与采用标准误差较小的点估计量。较小标准误差的点估计量更相对有效
7.7.3 一致性
一致性:随着样本容量变大,点估计量的值与总体参数越来越近,则称该点估计量是一致的。
7.8 其他抽样方法
7.8.1 分层随机抽样
比如:按照部门、位置、年龄等来划分(这些划分标准和个体有关系)
从每层抽取一个简单随机样本,再合并起来。
7.8.2 整群抽样
总体中把个体分成称作群的单个组,再以群为单位抽取一个简单随机样本,所有个体再构成一个样本。(划分标志和个体没关系,主要是为了快速抽样,减少成本)
比如再不同街区进行采访。
7.8.3 系统抽样
按一定间隔来抽取:如1000个人每隔10个人抽一个出来即可。
7.8.4 方便抽样
上述抽样都属于概率抽样计数,从总体中选出的个体以已知的概率进入样本。
方便抽样是一种非概率抽样技术,比如在某大学做了一个问卷调查。这种方式主要便捷,但是可能不能代表总体。
7.8.5 判断抽样
判断抽样:也是非概率抽样技术。由人主管的确定总体中他认为最具代表性的个体组成样本。(我觉得马云和马化腾能代表全国人均收入\狗头)
链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦