第七章 抽样和抽样分布

参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾。(仅限个人学习使用,请勿牟利)

第七章 抽样和抽样分布

从中抽取样本的总体叫作抽样总体抽样框是用于抽选样本的个体清清单。抽样的总体也分有限和无限。

7.1 EAI公司的抽样问题

公司想调查2500名管理的年薪和完成培训计划的人数占比。年薪均值\mu=51800美元,标准差\sigma=4000美元

有1500名管理完成了培训计划。

总体的数字特征称作参数(parameters),将总体中完成培训计划的人员比例叫做p,p=0.6

如果我们不能提取2500名管理的资料,那么我们可以抽样。

7.2 抽样

有限总体抽样、无限总体抽样

7.2.1 有限总体抽样

建议:概率抽样,因为此时的样本能对总体进行有效的统计推断

简单随机样本(有限总体):从容量为N的总体中抽取容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则该样本称为简单随机样本。

无放回抽样&放回抽样:我们可以根据随机数表来进行抽样

7.2.2 无限总体抽样

总体容量无限大或者总体中的个体是在一个运行的过程产生的。对于无限总体,我们无法构建一个包含全部个体的抽样框。
建议:随机样本
随机样本(无限总体)的满足条件:

  1. 抽取的每个个体来自同一个总体
  2. 每个个体的抽取是独立的

如快餐店就餐顾客的抽样(顾客光顾快餐店是一个正在进行的过程),要保障条件1首先就要排除那些来白嫖厕所的;保障条件2就难了,因为调查员在选择顾客的时候有倾向(比如年轻、好说话的)。
麦当劳的解决方法:用优惠券的下一名顾客进入样本(因为用优惠券的概率是随机的)

7.3 点估计

与总体参数对应的样本特征——样本统计量
比如前面的EAI公司,算出来30名管理员组成的样本统计量\bar x=51814美元s=3348美元\bar p=0.63
此时\bar x为总体均值\mu点估计量s为总体标准差\sigma的点估计量,\bar p为总体比率p的点估计量。\bar x,s和\bar p称为点估计值

image

点估计值和总体参数是有差异的,下一章来讲如何构造区间估计。

7.3.1 应用中的建议

尽量让抽样总体(样本)和目标总体(想要推断的总体)保持高度一致。

7.4 抽样分布简介

如果我们对EAI公司的取样,取500次,那就有500组点估计值。
那么每次取样相当于一次试验,\bar x就是一个随机变量。那么\bar x的概率分布称作:\bar x的抽样分布。

image

image

\bar x\bar p都是钟形图

7.5 \bar x的抽样分布

\bar x的抽样分布
\bar x的抽样分布是样本均值\bar x的所有可能值的概率分布。

7.5.1 \bar x的数学期望

公式:E(\bar x)=\mu 这里的\mu好像式总体的均值
当点估计值等于总体参数时,我们称这个点估计量是无偏的(unbiased)

7.5.2 \bar x的标准差

  • \sigma_{\bar x}——\bar x的标准差(均值的标准误差)
  • \sigma——总体标准差
  • n——样本容量
  • N——总体容量

其中\bar x的标准差公式与总体是否有限相关:

  • 有限总体:\sigma_{\bar x}=\sqrt{\frac{N-n}{N-1}} \left(\frac{\sigma}{\sqrt{n}} \right)
  • 无限总体:\sigma_{\bar x}=\frac{\sigma}{\sqrt{n}}

有限总体需要系数\sqrt{\frac{N-n}{N-1}},我们称为有限总体修正系数。当N足够大的时候,也可以忽略这个修正系数,把计算出来的值看作近似。

实际计算时:\sigma_{\bar x}=\frac{\sigma}{\sqrt{n}}
注意:1、总体无限;或2、总体有限,但n/N \leq 0.05
一般说总体容量足够大就是满足n/N \leq 0.05

7.5.3 \bar x的抽样分布形式

\bar x的概率分布形式的确定需要考虑下面两种情形:

  1. 总体服从正态分布
  2. 总体不服从正态分布,可以借助中心极限定理帮助我们确定\bar x的抽样分布的形状。

中心极限定理:从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值\bar x的抽样分布近似服从正态概率分布。(只要样本量大,那就服从正态分布)

那我们需要多大得样本才合适呢?


image

一般\geq 30
总体严重偏态或有异常点:\geq 50
总体为离散型:按比例来取n

7.5.4 EAI问题中\bar x的抽样分布

没啥说的

7.5.4 \bar x的抽样分布的实际值

回到EAI公司的问题,我们知道总体均值时51800美元,假如我们能接受的误差是\pm 500

image

我们可以通过转化为标准正态分布来求得样本均值和总体均值的差在\pm 500内的概率大约为50%

7.5.6 样本容量与\bar x的抽样分布的关系

前面提到样本容量为30时,样本均值就服从正态分布了。不过n更大时,样本均值的估计会更好。


image

\sigma_{\bar x}=\frac{\sigma}{\sqrt{n}},所以n越大,\sigma_{\bar x}越小。

回到EAI公司的问题,我们转化为标准正态分布,当n为100时,点估计值距离总体均值500以内的概率为0.7888。

7.6 \bar p的抽样分布

\bar p的抽样分布式样本比率\bar p的所有可能值得概率分布。

7.6.1 \bar p的数学期望

E(\bar p)=p

7.6.2 \bar p的标准差

\bar p的标准差公式与总体是否有限相关:

  • 有限总体:\sigma_{\bar p}=\sqrt{\frac{N-n}{N-1}} \sqrt{\frac{p(1-p)}{n}}
  • 无限总体:\sigma_{\bar p}=\sqrt{\frac{p(1-p)}{n}}

n/N \leq 0.05时也可以用后者来计算。

7.6.3 \bar p的抽样分布的形态

样本中x是否已经参加培训服从二项分布,所以x的二项概率等于x/n,\bar p的抽样分布是一个离散型的概率分布。
由于np\geq 5n(1-p)\geq 5,此时二项分布可以用正态分布近似。

image

7.6.4 \bar p的抽样分布的实际应用

比如计算\bar p0.6\pm 0.05的概率多少

image

excel中可以用NORMDIST(x,均值,标准差,TRUE)来返回累计概率

7.7 点估计的性质

\theta代表总体参数(均值、标准差、比率等)
\hat \theta代表样本统计量(样本均值、样本标准差、样本比率等)(读theta尖)

7.7.1 无偏性

E(\hat \theta)=\theta 时,称样本统计量时相应总体参数的无偏估计量

对于样本标准差和方差,如果E(s^2)=\sigma^2时,样本方差s^2是总体方差\sigma^2的无偏估计量。(样本方差计算时分母n-1,就是为了使样本方差是总体方差的无偏估计量)

7.7.2 有效性

如果一个简单随机样本由n个个体组成,给出了总体同一参数的两个不同的无偏点估计量,这时更强与采用标准误差较小的点估计量。较小标准误差的点估计量更相对有效

image

7.7.3 一致性

一致性:随着样本容量变大,点估计量的值与总体参数越来越近,则称该点估计量是一致的。

7.8 其他抽样方法

7.8.1 分层随机抽样

比如:按照部门、位置、年龄等来划分(这些划分标准和个体有关系)


image

从每层抽取一个简单随机样本,再合并起来。

7.8.2 整群抽样

总体中把个体分成称作群的单个组,再以群为单位抽取一个简单随机样本,所有个体再构成一个样本。(划分标志和个体没关系,主要是为了快速抽样,减少成本)
比如再不同街区进行采访。

7.8.3 系统抽样

按一定间隔来抽取:如1000个人每隔10个人抽一个出来即可。

7.8.4 方便抽样

上述抽样都属于概率抽样计数,从总体中选出的个体以已知的概率进入样本。

方便抽样是一种非概率抽样技术,比如在某大学做了一个问卷调查。这种方式主要便捷,但是可能不能代表总体。

7.8.5 判断抽样

判断抽样:也是非概率抽样技术。由人主管的确定总体中他认为最具代表性的个体组成样本。(我觉得马云和马化腾能代表全国人均收入\狗头)


链接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取码: 333c 复制这段内容后打开百度网盘手机App,操作更方便哦

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,135评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,317评论 3 397
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,596评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,481评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,492评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,153评论 1 309
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,737评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,657评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,193评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,276评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,420评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,093评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,783评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,262评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,787评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,427评论 2 359

推荐阅读更多精彩内容