Bootstrap 是一种常用的统计手段, 本文主要介绍一下 Boostrap 是什么东西,以及它的优点。 内容参考自油管视频 StatQuest Bootstrap
假设你在进行一个实验, 得到了如下8个测量值。 这时,你要给出一个统计值, 比如平均数, 你可以把这8个值求平均, 然后就当成平均数么?
很可能你不能这么做,因为样本数量太少,只有8个,此时得到的统计量可能不够有说服力。假如你无法继续进行实验,获得新的测量值, 那么你该怎么办呢? 也许, Bootstrap 这个时候可以帮你一把。
放回抽样
你可以对这8个测量值进行有重复抽样, 再获得8个测量值。 注意,由于是有重复抽样, 有些样本可能被重复抽中多次。这样, 就得到一个新的样本:
你可以反复进行这个过程成百上千次,得到上千个样本, 对每个样本求平均值,这些样本平均值就形成一个分布。
有了这个分布以后, 就可以对原来的均值进行估计了, 而且可以得到均值的 Stand Deviation, Confidence Interval 等。
使用灵活
利用 Bootstrap, 不但可以估计均值, 你可以对任何感兴趣的统计值进行估计, 最大值, 最小值,mode 等等。