Sample and Sampling
样本和抽样
5.01 Sample and population
样本和总体
样本的数量比总体要小(是总体的子集),通过样本的统计数据分析可以推断总体的一些特征
5.02 Sampling
抽样
如何做一个好的抽样(样本是总体的小型版本),避免一些偏差(偏见)
简单随机样本(每一个个体都有一样的机会被选择)
下图描述了抽样过程及其出现的挑战
- 总体 -> 样本框架: 总量偏差(不是每个人都会出现在样本框架内)
- 样本框架 -> 样本: 抽样偏差(如便利性抽样,有些人更难被抽样到)
- 样本 -> 调查者: 无响应偏差(有人拒绝被调查)
- 调查者 : 响应偏差(调查的时候未必反应真实情况)
简单随机抽样有2个相对比较好的方法:
-
Random multi-stage cluster sample(随机多阶段聚类样本)
示意图:
当你没有抽样框架的时候用该方法或者简单随机抽样代价很大的时候
-
分层随机抽样
优点: 每层都有足够的主题
缺点: 需要有一个抽样框架,且需要知道每个调查者属于哪一层
最后总结:
- 越多越好
- 让你的样本足够随机
Sampling distribution of sample mean and cetral limit theorem
样本平均值的抽样分布和中心极限定理
5.03 The sampling distribution
抽样分布
当样本的数量越来越大(趋向无穷时),所有这些(单个样本自身平均值)的分布就叫做抽样分布
当样本很少的时候(比如20),抽样分布近似正态分布
当样本数量更多(>100),抽样分布的正态分布特性就越强
趋于无穷时,完全是正态分布
5.04 The central limit theorem
中心极限定理
不管总体的变量分布是如何的,样本平均值的抽样分布都近似正态分布,哪怕样本数只有30
抽样分布的平均值 = 总体平均值,记为:
抽样分布的标准差为:
其中为总体变量的标准差, n为样本的数量
- 当总体标准差越大,抽样分布的标准差也越大
- 当样本数量越大,抽样分布的标准差就越小(越趋近中心(平均值))
5.05 Three distributions
三种分布
先看下图:
- 总体分布
- 数据样本分布
- 抽样分布
我们可以通过知道总体的平均值及标准差,来计算某个样本平均值为某个值的概率。如题:总体平均值为=943,标准差=212, 样本的平均值>=1000的概率是多少?
因为无穷多个样本的平均值分布是正态分布的,因此我们通过计算1000在抽样分布中的z-score,来获取1000及大于1000的概率。通过公式
通过查询z-table 可以得到 结果为0.01%
各个分布的使用场景:
- 当选取独立的主题时,使用总体分布
- 当选取样本,使用抽样分布
5.06 Sampling distribution proportion
比例的抽样分布
前面的内容我们都是在讨论样本平均值的抽样分布,当样本的数量足够大(>=30),它呈现近似的正态分布(贝尔形).
这次我们要讨论的是样本概率(二项分布概率)的抽样分布, 当正负样本数>=15记为 且
比例抽样分布的标准差计算公式如下:
和为正负样本的概率