为什么计算标准差时,分母使用的是 n-1 而不是 n

用个简单的例子马上就懂了:

1.你的数据:假设你现在从 100 个病人中收集到了一组数字(每个人的身高)。

2.你的任务:你需要用这组数字来估计整个人群的身高波动即标准差(比如估计我们国家,共有13亿),但你只能使用你手头的这些数字。

关键点来了!

一个重要的假设是:由于你没有所有可能的数据(因为你只取了一部分,即“样本”),所以你的估计可能会有一点偏差,这种偏差往往是对样本波动性的估计过低。

理解上面这一句话非常重要,当你只取了 100 个样本时,实际上你的这一百个样本的波动性(不确定性)是要小于于总体样本的。因为,我们知道,当样本数量增加,数据的极端值往往会增加。

再举个例子,你在人群中抽样10个人、甚至是100个人,大概率抽不到姚明这么高的。但是当你增加抽样次数,抽1千万个样本,总会有几百个2米多的壮汉。应了那句古话,林子大了什么鸟都有!

所以,当你使用样本标准差估计整体标准差时,你可能忽略了“林子大了”整体样本)以后数据)的多样性。所以分母除以n-1,实际上是在样本标准差的条件下增加了我们对总体波动性的估计。(分母减少,数值增大)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容