抽样与区间估计
1.1、什么是抽样
- 抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。
个体:是收集数据的基本单位
总体:是所有感兴趣的个体集合
样本:是总体的一个子集
1.2、抽样的步骤
第一步:确定调查总体:即明确调查的全部对象及其范围。这是抽样调查的前提和基础。
第二步:确定抽样框:抽样框,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。(好的抽样框应做到:完整而不重复。)常见的抽样框:大学学生花名册、城市黄页里的电话列表、工商企业名录。再举一个例子:要从10000名职工中抽出200名组成一个样本,则10000名职工的名册,就是抽样框。
第三步:选择抽样方案
第四步:决定样本量
第五步:实施抽样
第六步:测算结果:这是抽样调查的最后一个步骤,也是抽样调查的目的的所在。指用样本指标推断总体指标的结果。
1.3、不同类型的抽样技术
概率抽样:在概率抽样中,总体中的每个个体都有相等的被选中的机会。概率抽样给了我们最好的机会去创造一个真正代表总体的样本
非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本,它不会产生可推广的结果
1.4、概率抽样类型
- 1.41 简单随机抽样:这是你一定要遇到的一种抽样技术。在这里,每个人都是完全由随机选择的,人口中的每个成员都有被选择的机会。这种技术的一大优点是它是最直接的概率抽样方法。但它有一个缺点,它可能不会选择特别多我们真正感兴趣的个体元素。蒙特卡罗方法采用重复随机抽样的方法对未知参数进行估计。
- 1.42 系统抽样:在这种类型的抽样中,第一个个体是随机选择的,其他个体是使用固定的“抽样间隔”选择的。让我们举一个简单的例子来理解这一点。假设我们的总体大小是x,我们必须选择一个样本大小为n的样本,然后,我们要选择的下一个个体将是距离第一个个体的x/n个间隔。我们可以用同样的方法选择其余的。系统抽样比简单随机抽样更方便。然而,如果我们在人群中选择项目时存在一种潜在的模式,这也可能导致偏差(尽管这种情况发生的几率非常低)。
- 1.43 分层抽样:在这种类型的抽样中,我们根据不同的特征,如性别、类别等,把人口分成子组(称为层)。然后我们从这些子组中选择样本。在这里,我们首先根据红、黄、绿、蓝等不同的颜色将我们的种群分成不同的子组。然后,从每一种颜色中,我们根据它们在人口中的比例选择一个个体。当我们想要从总体的所有子组中得到表示时,我们使用这种类型的抽样。然而,分层抽样需要适当的分组特征的知识。
- 1.44 整群抽样:在整群抽样中,我们使用总体的子组作为抽样单位,而不是个体。全体样本被分为子组,称为群,并随机选择一个完整的群作为抽样样本。在上面的例子中,我们将人口分为5个群。每个群由4个个体组成,我们在样本中选取了第4个群。我们可以根据样本大小包含更多的群。当我们集中在一个特定领域或区域时,就会使用这种类型的抽样。整群抽样更效率、便捷。
抽样间额
1.5 非概率抽样的类型
1.51 方便抽样
顾名思义,样本的确定主要基于便利。样本中所包括的个体不是事先确定或按照已知概率选取的。
1.52 判断抽样
在这种抽样方法中,由对研究总体非常了解的人主观确定选择总体中他认为最具代表性的个体组成样本。
例题:EAI公司总共有2500名员工,由种种原因,缺少了部分员工的工资明细。但目前要统计出公司的平均薪资,该怎么抽样并统计。
- 第一步:确定调查总体:EAI公司2500名员工
- 第二步:确定抽样框:抽样框,员工编号清单
- 第三步:选择系统抽样。(为什么选择系统抽样?1、有员工编号清单。2、一般而言,工资与工> 作年限成正比,系统抽样可以尽可能消除工作年限的影响。)
- 第四步:样本量为30,间额 = 2500/30
- 第五步:实施抽样
- 第六步:测算结果
#制作数据集
listc =[]
listc2=[]
n =1
for i in range(30):
listc.append(n)
n+=int(2500/30)
for i in range(30):
1.6 点估计
为了估计总体参数,计算相应的样本特征 -- 样本统计量
上述计算,我们完成了成为点估计的统计过程。我们称样本均值为总体均值的点估计量、称样本标准差为总体标准差的点估计量。
点估计值与总体参数的真实值在某称程度上是有差异的。这与我们选择的抽样方法及抽样样本数有很大关系。后面,我们会学习如果构造区间估计以便提供关于点估计值和总体参数差异大小的信息。
2、均值抽样分布
在上节中,我们说样本均值是总体均值的点估计量。现在假定将选取30名员工组成一个抽样的过程一而再再而三地进行下去,每次都计算样本均值。重复500次。
我们将抽取一个抽样的过程看作一个试验,则样本均值就是一个随机变量,我们称样本均值的概率分布为x-的抽样分布
2.1 x-的数学期望
是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
当点估计量的期望值等于总体参数时,我们称这个点估计量是无偏的。
- 思考:数学期望和平均值的区别
- 答:平均数是一个统计学概念,期望是一个概率论概念。实验的多少是可以改变样本平均数的,> 而在你的分布不变的情况下,数学期望是不变的。
2.2 x-的标准差
有限总体需要系数,该系数为有限总体修正系数,当n/N >0.05时,使用此修正系数
n抽样的样本数(30),N总体样本数(2500)
2.3、x-抽样分布的形式
- x-抽样分布是服从正态分布,意味着可以利用正态分布的特性,比如回答:“领导关心样本均值介于51300 - 52300之间的概率为多少”
2.4 中心极限定理
从总体中抽取容量为n的简单随机样本,当样本容量很大时,它的x-的抽样分布近似服从正态概率分布。对于大多 数据应用,假定样本容量达到30时,就可看作正态分布了。当总体是严重偏态或较多异常点时,样本容量需要达到50。
2.5 点估计的性质
2.51 无偏性:如果样本统计量的期望值等于所估计的总体参数,则称该样本统计量是相应总体参数的无偏估计量。
2.52 有效性:假定一个简单随机样本由n个个体组成,给出了总体同一参数的两个不同的点估计量。这时,我们倾向于采用标准误差较小的点估计了。有较小标准误差的点估计量比其他点估计量相对有效。
2.53 一致性:粗略地讲,如果随着样本容量的怎大,点估计量的值和总体参数越来越接近,则称该点估计量是一致的。
当抽取一个简单的随机样本,用样本均值的值估计总体均值时,样本均值恰好等于总体均值时小概率事件。
例子: 人事部经理认为样本均值在总体均值+-500美元以内,样本均值是总体均值的一个可接受的估计值。问,根据30名EAI管理人员组成的简单随机样本,得到的样本均值在总体均值附近+-500美元以内的概率有多大? (假定总体均值为51800美元,总体标准差为4000美元)
- 那么均值抽样分布的数学期望等于多少?均值抽样分布的标准差等于多少?
- 答:数学期望 = 总体均值 = 51800。
- 因为n/N = 30/2500 = 0.012 < 0.05 ,所以用无限总体的公式
- 均值抽样分布的标准差 = 总体标准差/(样本容量^(1/2)) = 4000/(30^(1/2)) = 730.3
- 说明,由30名EAI管理人员组成的一个简单随机样本中,以0.5034的可靠性保证样本均值x-在总> > 体均值附近+-500美元以内。
- 50%太低了,怎么解决? 答:增加抽样样本容量n
2.6 样本容量与均值抽样分布的关系
数学期望 = 总体均值 = 51800
有限,因为n/N = 100/2500 = 0.04 < 0.05 ,所以用无限总体的公式
均值分布的标准差 = 4000/(100^(1/2)) = 400
随着样本容量从30名EAI管理人员增加到100名,样本均值在总体均值附近+-50美元以内的概率从0.5034增加到0.7888
随着样本容量的增加,均值抽样分布的标准误差在减少,导致样本均值落在总体均值附近某一特定范围内的概率也越大。
3、区间估计
点估计是用来估计总体参数的样本统计量,因为我们难以期望点估计能给出总体参数的十分精确值,所以经常在点估计加减一个边际误差的值来计算区间内估计。
区间估计 = [点估计 - 边际误差,点估计 + 边际误差]
3.1 总体均值的区间估计:总体标准差已知的情况
为了对总体均值进行区间估计,必须利用总体标准差或者样本标准差计算边际误差,在大多数的应用中,总体标准差都是未知的。我们可以抽样前根据大量有关历史数据估计总体标准差。
例题:某百货公司每周选100名顾客组成一个简单随机样本,目的在于了解他们每次购物的消费额。这个调查已进行很许多年,根据历史数据,总标准误差已知,σ=20美元。最近一周,调查了100名顾客,得到样本均值x- = 82美元。问,如果计算边际误差以及建立总体均值的区间估计
置信系数95%,可得 a = (1- 0.95) /2 = 0.025
带入公式,区间估计为:
(82 + (-1.96) * 20/100(1/2) , 82 - (-1.96) * 20/100(1/2)) = (78.08,85.92)
所以我们说:有95%的把握相信区间 (78.08,85.92)包含总体均值u
我们称这个区间在95%置信水平下建立,其中数值0.95称置信系数,区间(78.08,85.92)称作95%置信区间的区间估计
3.2 总体均值的区间估计:总体标准差未知的情况
在建立总体均值的区间估计时,我们通常并没有关于总体标准差的一个好的估计。当利用样本标准差估计总体标准差时,边际误差和总体区间误差估计都以t分布的概率分布为依据进行的。虽然t分布的数学推导是以假设抽样总体服从正态分布为依据,但研究表明在许多总体分布显著偏离正态分布的情形下,利用t分布的效果还是相当不错的。
t分布
背景:William Sealy Gosset(戈塞特)。他当年在爱尔兰都柏林的一家酒厂工作,他当时想在采用较少的情况下(小样本),设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。
简述:t分布是由一类相似的概率分布组成的分布族,某个特定的t分布依赖于为自由度的参数。当自由度分别为1,2,3 ...时,有且仅有唯一的t分布与之相对应。随着自由度的增大,t分布与标准正态分布之间的差别变得越来越小。t分布的均值为0
图像:自由度df越小,t分布曲线越低平;自由度df越大,t分布曲线越接近标准正态分布(u分布)曲线
自由度 :自由度是计算 sum(x-mean(x))^2时所用到的信息的个数,一般而言就是"样本数 - 1"
例题:某公司考虑使用一种新型的计算机辅助程序来培训员工维修机器,需要对该计算机辅助培训所需时间的总体均值进行估计。选取20名员工去完成这名培训计算,得到样本均值为51.5天,样本标准差为6.84天,问:总体均值的区间估计是多少?置信水平为95%
解:公式里的均值,标准差,n均已知。需要求置信水平为95%时,t分布的t值
带入公式,区间估计为:
所以区间估计为(48.3,54.7)
所以我们说:有95%的把握相信区间 (48.3,54.7)包含总体均值u
3.3 样本容量的确定
- 在这节中,我们重点讲解如何确定足够的样本容量以达到所希望的边际误差。为解决这一方法如何计算。我们回到总体标准差已知时,区间估计的公式
- 我们可以看到是Z(a/2)、总体标准差、样本容量n共同确定了边际误差。一旦选择了置信系数1-a,Z(a/2)就确定了。然后,如果总体标准差已知,我们就可以确定达到希望边际误差所需的样本容量n。以下是用于计算所需样本容量n的公式。 E = 边际误差
给定置信水平下,这一样本容量能够达到希望的边际误差
注意:在计算样本容量时,要总体标准是已知的。但假设总体标准差未知,在实践中,可选择以下方法之一来确定总体标准差的值。
1、根据以前研究中的数据(多次试验)计算总体标准差的估计值
2、以样本标准差作为总体标准差(单次试验)
3、对总体标准差进行最优猜测:可以分别取总体的最大值和最小值,两者之差称为极差。一般建议用极差/4作为标准差的粗略估计
例题:美国汽车租赁成本的已有调查研究发现,租赁一辆中型汽车的平均费用大约为每天55美元,样本标准差为9.65,现在需对租赁汽车费用进行总体均值的区间估计,置信水平为95%。问:当样本容量至少为多少时,总体均值的边际误差为2美元。
带入公式
Z(a/2)^2 = 1.96**2 = 3.841
总体标准差σ^2= 样本标准差s^2 = 9.65**2 = 93.12
E^2 = 2**2 = 4
答:当样本容量至少为90时,总体均值的边际误差为2美元。当计算的样本容量不是整数时,建议使用取下一位整数的样本容量。
样本容量的确定可以让我们知道抽样抽多少才合理。