统计基础3-抽样分布

  • 目标: 理解从一个分布中抽取一个样本意味着什么

意味着, 我们可以通过计算机从一个分布的直方图或者近似曲线的概率中选取一个随机数.

  • 举例: 由身高构成的直方图中, 抽取一个样本.
Figure1

有时, 我们的样本会从黑色方框标记的区域产生.

Figure2

还有些时候, 样本会从边缘区域产生.

  • 问题1: 我们为什么要从一个分布中选取样本呢?

为了进行统计探索. 计算机可以抽样出很多样本, 而我们可能将这些样本代入到统计检验(statistics tests)中, 去探索会发生什么.

正是由于我们在抽样前知道原始分布是什么, 我们可以比较期望值与实际值.

  • 例子2: 从一个分布中抽取2组样本, 每组3个样本. 针对每组样本进行t-test(T-检验)
Figure3

如Figure3所示, 两组样本来自于同一个分布, t-test对应的p\_value为很大, 即二者并没有显著性差异.通过多次(大量)t-test, 我们可以得到p\_value值比较大的频率有多大.

  • 例子3: 从两个独立(相关性很小)的分布中抽取两组样本, 每组3个样本.
Figure4

这时t-test会得到比较小的p\_value, 意味着两次抽样存在着显著性差异. 如果我们抽取了很多样本, 然后做了很多次t-test, 我们可以观察p\_value值比较小的频率有多大.通过p\_value值的频率统计, 可以告诉我们, 我们是否需要增加样本量.

总结

我们从一个单分布或多个混合分布中抽取样本, 即通过计算机生成一堆随机数字, 可以使我们知道统计检验在不需要做大量工作的情况能做什么.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容