标准差为什么除以n-1


title: 标准差为什么除以n-1
date: 2019-10-16 12:10:54
type: "tags"
tags:

  • 统计学
    categories:
  • 生物统计

前言

在学习统计学的时候,我遇到过这么一个问题,也就是说,样本的标准差公式,如下所示:
s=\sqrt{s^{2}}=\sqrt{\frac{S S}{n-1}}
很多统计学书上都提到,在样本标准差的计算公式中,平方根中的分子是 n-1,而总体标准差则是 n 。其理由是为了校正样本变异性而做出的调整,这是对总体标准差的无偏估计。

但是,为什么说这是一种无偏估计,很多书中并没有提及,或者说是只用了很粗略的语言简单地说了一下,其实也没必过于纠结这个问题,记住就行。但是,如果实在是想弄明白这个问题,网上也有人给出了证明过程,但是证明过程对于没有数学基础的人来讲,还是有点难的,这个完整的证明过程的可以参考知乎上的这个帖子《为什么样本方差(sample variance)的分子是n-1》

最近我看到了一本统计学的书《行为科学统计》(第七版)作者:[美]FrederickJ Gravetter,这本书中对这个问题的描述很清楚,通过用举例子的方式说明了一下(并非严格证明),为什么在样本标准差中,使用 n-1 是对总体方差的无偏估计。

另外说明一下,《行为科学统计》这本书原本就是给社会学的学生学习统计学准备的,里面的语言浅显易懂,没有复杂的公式,对于数学功底差的学生来说,非常友好,最新一版已经到了第9版。

背景知识

  1. 离差:数据到平均数的距离,例如对于一个 \mu = 50 的分布来说,如果你的一个数据是 X=53 ,那么离差就是 X-\mu = 53 - 50 = 3。如果数据是45,那么离差就是 45-50=-5
  2. 离均差平方和(SS,sum of squares of deviation from mean):由于离差有正有负,最终所有离均差的和即 (X-\mu) 为0,因此离均差的和无法描述一组数据的变异大小。因此将离均差平方后相加得到平方和Var(X)=E(X-\mu)^2,这就是离均差平方和(sum of squares of deviations from mean, SS)。
  3. 方差:方差定义为离均差平方和的平均数,如下所示:
image
  1. 标准差:方差的平方根。

计算过程

先来看一组数据,即1, 9, 5, 8, 7,我们把这个数据当作是总体,现在我们计算它的离差,离差的平方等,如下所示:

a <- c(1,9, 5, 8, 7) # 原始数据
a - mean(a) # 离差
(a- mean(a))^2 # 离差的平方
sum((a- mean(a))^2) # 离均差平方和
sum((a- mean(a))^2)/length(a) # 方差
sqrt(sum((a- mean(a))^2)/length(a)) #标准差

计算结果如下所示:

> a <- c(1,9, 5, 8, 7) # 原始数据
> a - mean(a) # 离差
[1] -5  3 -1  2  1
> (a- mean(a))^2 # 离差的平方
[1] 25  9  1  4  1
> sum((a- mean(a))^2) # 离差的平方和
[1] 40
> sum((a- mean(a))^2)/length(a) # 方差
[1] 8
> sqrt(sum((a- mean(a))^2)/length(a)) #标准差
[1] 2.828427

总体方差与样本方差

总体方差的计算公式就是方差的定义:

image

总体标准差就是总体方差的平方根,如下所示:

image

样本方差与总体方差有所不同,为了校正样本变异性,我们需要对方差和标准有效期的公式做出调整,此时样本方差公式中的分母是 n-1, 如下所示:

image

样本标准差的公式如下所示:

image

这里要注意的是,公式使用了 n-1 来代替 n ,这是为了校正样本变异性的偏误做出的调整,调整的结果使所得的结果变大,从而使样本方差成为对总体方差精确的无偏估计(如果是n,则是有偏估计)。

下面我们用不太严谨的一个案例来说明一下为什么样本方差中的分母是 n-1

举例说明为什么是n-1

现在我们设计一个N=6的总体,它的元素为0, 0, 3, 3, 9, 9,现在我们计算可知它的总体均数为 \mu=4, 方差 \sigma^2 = 14

现在我们从这个总体中选择一个 n=2 的样本,我们选出所有可能的组合,并计算出其平均数,有偏方差,无偏方差,如下所示:

样本编号 第1个数 第2个数 平均数 有偏的方差(n) 无偏的方差(n-1)
1 0 0 0 0 0
2 0 3 1.5 2.25 4.5
3 0 9 4.5 20.25 40.5
4 3 0 1.5 2.25 4.5
5 3 3 3 . 0
6 3 9 6 9 18
7 9 0 4.5 20.25 40.5
8 9 3 6 9 18
9 9 9 9 0 0
总和 36 63 126

现在我们观察平均数这一列,原始的总体均数为 \mu = 4。虽然没有一个样本的均数恰好为4,但是如果考虑整组样本,将会发现,9个样本的平均数总和为36,因此样本均数数的平均数为 36/9=4,此时样本平均数恰好等于总体平均数。根据定义,这是一个无偏的统计量,也就是说,样本精确地代表了总体。

现在我们考虑用除以n得到的存在偏误的样本方差这一列。原始的总体方差是 \sigma^2 = 14。 然而,9个样本方差的总和为63, 这使得63/9=7。注意,这些样本方差的平均值不等于总体方差,也就是说,如果用除以n得到的样本方差,得出的结果不能精确估计总体方差, 也就是说,这些样本方差低估了总体方差,因此是存在偏误的统计量。

现在我们再考虑除了n-1得到的样本详这一列,虽然总体方差为\sigma^2=14,然而没有一个样本的方差恰好等于14。但是,如果考虑整组样本方差,将会发现这9个值总和为126,因此方差的平均值为126/9=14。因此,样本方差的平均值恰好等于总体方差。也就是说,样本方差(此时是使用了n-1来代替n)是对总体方差的一个精确的、无偏的估计。

结论就是,样本平均数和样本方差(使用n-1)都是无偏估计的例子。这个事实使样本平均数和样本方差在推论统计方面变得非常重要。虽然没有单个样本恰好具有与总体一样的平均数和方差,但是,样本平均数和样本方差的平均值确实提供了对相应总体参数的精确估计。

参考资料

  1. 行为科学统计 作者: [美] F. J. Gravetter / [美] L. B. Wallnau,出版社: 中国轻工业出版社,原作名: Statistics for the behavioral sciences,译者: 王爱民 / 李悦,出版年: 2008-7
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容

  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,655评论 0 3
  • 为了学统计同时看了《行为科学统计》、《行为统计学基础》、《商务与经济统计》、《深入浅出统计学》。都是好书,但推荐前...
    TaraChen阅读 7,036评论 3 8
  • 第一章 变量和图形 统计学:科学方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学; 归纳...
    凭栏听雨_t阅读 4,296评论 0 0
  • 2003年秋季的一天,一位学术权威者莅临本地区调研、指导农村教研工作。 程实老师陪同领导调研。 第一天,深入到了市...
    悦读苑阅读 633评论 3 6
  • 书籍名:不完美艺人 作者名:懒惰De天 类型:都市、职场、重生、学生、轻松 字数/章节数:123万字/559章 简...
    发过火啊阅读 508评论 1 6