统计学基础概念：自举法、置信区间、标准误

pull oneself up by one′s bootstrap
凭借自己的力量终获成功

Bootstrap法是以原始数据为基础的模拟抽样统计推断法，可用于研究一组数据的某统计量的分布特征，特别适用于那些难以用常规方法导出对参数的区间估计、假设检验等问题。

Bootstrap的基本思想是：在原始数据的范围内作有放回的再抽样（resampling with replacement), 样本容量仍为n，原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。

使用Bootstrap法时，原始数据个数最好大于等于10。

置信区间是指由样本统计量所构造的总体参数的估计区间，

Bootstrap是计算置信区间的方法之一。假设我们要估计一群雌性小鼠的体重，抽样12只小鼠并称重，如下图，红点为每只小鼠的体重，红线为12只小鼠体重的均值。

我们可以使用bootstrap方法，得出这个样本的均值的置信区间，步骤如下：

所谓的95%置信区间就是覆盖了中间95%的均值的区间（如下图黑线所示）

常见的衡量数据误差的三个指标：

标准误指多个样本某个统计量（均值、标准差等）的标准差。假设从一个正态总体中抽样，共得到3个样本，每个样本有5个数据，分别用红、绿、蓝色小球表示，每个样本都有一个均值和标准差，如下图所示。

对这3个平均值求标准差，就得到均值的标准误了。标准误可以给出抽样均值的波动程度如何，而不像标准差只是单次抽样数据的波动，因此它往往更能估计总体均值。

我们同样可以通过bootstrap法计算标准误，如下图。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。