统计学基础概念:自举法、置信区间、标准误

自举法(Bootstrap)

pull oneself up by one′s bootstrap
凭借自己的力量终获成功

Bootstrap法是以原始数据为基础的模拟抽样统计推断法,可用于研究一组数据的某统计量的分布特征,特别适用于那些难以用常规方法导出对参数的区间估计、假设检验等问题。

Bootstrap的基本思想是:在原始数据的范围内作有放回的再抽样(resampling with replacement), 样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。

使用Bootstrap法时,原始数据个数最好大于等于10。

置信区间(Confidence intervals)

置信区间是指由样本统计量所构造的总体参数的估计区间,

Bootstrap是计算置信区间的方法之一。假设我们要估计一群雌性小鼠的体重,抽样12只小鼠并称重,如下图,红点为每只小鼠的体重,红线为12只小鼠体重的均值。


我们可以使用bootstrap方法,得出这个样本的均值的置信区间,步骤如下:

  • 从这12个原始样本数据中随机抽取12个数据(有放回抽样)作为一个bootstrap样本
  • 计算这个bootstrap样本的均值
  • 重复前两个步骤,直到得到足够多个bootstrap样本的均值

所谓的95%置信区间就是覆盖了中间95%的均值的区间(如下图黑线所示)

标准误

常见的衡量数据误差的三个指标:

  • 标准差(Standard Deviations,SD)
  • 标准误(Standard Errors,SE)
  • 置信区间 (Confidence Intervals)

标准误指多个样本某个统计量(均值、标准差等)的标准差。假设从一个正态总体中抽样,共得到3个样本,每个样本有5个数据,分别用红、绿、蓝色小球表示,每个样本都有一个均值和标准差,如下图所示。

对这3个平均值求标准差,就得到均值的标准误了。标准误可以给出抽样均值的波动程度如何,而不像标准差只是单次抽样数据的波动,因此它往往更能估计总体均值。

我们同样可以通过bootstrap法计算标准误,如下图。

参考资料:
StatQuest - 置信区间
StatQuest - 标准误差

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容