理解期望、方差常见公式

先从基本概念讲起。

期望

对于一个随机变量x,它在取不同值时的概率用函数f(x)表示。比如色子的点数是一个随机变量,它为1的概率可以表达成f(1)=1/6,这与我们代数中的函数有点不同,代数中的函数是输入一个确切的数,而这里不是。我甚至可以用f(heads)=0.5来表示投硬币为正面的概率。不过,本文其余部分都要求概率函数的输入值是数字。
期望表示随机变量的中心位置。例如你投色子很多次,最后计算的点数平均值应该是所有点数的均值,因为出现每种点数的概率相同。如果概率不同,则需要用概率加权,于是我们的期望公式就是:
E(x)=\mu=\sum xf(x)

它表示把每一种可能的输出的值乘以其概率后求和。

性质1: 期望的线性关系

对于两个相互独立的随机变量 X, Y,我们有:
E(X+Y)=E(X)+E(Y)
这个就不做证明了。有2个色子各自投掷,两者的期望都是 E=\dfrac{1}{6}\times (1+...+6)=3.5,那么问两个色子之和的期望,显然是 3.5+3.5=7。这是可以直观认知的。用 c_i 表示一个常数,它只是缩放每一个随机变量的值而已,进一步推广我们有:
E\left[\sum_{i=1}^nc_iX_i\right]=\sum_{i=1}^n[c_iE(X_i)]

性质2: 样本均值的期望

假定有一个随机变量 X 的期望值和方差分别是 \mu, \sigma^2。现在对这个数据集进行随机抽样(有放回的抽样,因为我需要保证整体的分布是不变的),抽到的样本一个一个的数据用 X_1, X_2 ... X_n 表示,现在试求 \bar{ X } 的期望。
根据样本均值的定义我们有:
E(\bar{ X } ) = E(\dfrac{X_1+X_2+...+X_n}{n})
根据性质1的推论:
E(\bar{ X } ) = \dfrac{1}{n}[E(X_1)+E(X_2)+...+E(X_n)]
由于每个 X_i 所属的分布和 X 是一样的。两者都是有放回地随机抽一个,因此:
E( \bar{ X } ) = \dfrac{1}{n}(\sum_{i=1}^nE(X))=\dfrac{1}{n}\cdot n \cdot \mu=\mu
我们的结论是:有放回的随机抽样的样本均值和总体均值的期望是一致的。

性质3: 期望的乘积关系

对于两个相互独立的随机变量 X, Y,我们有:
E(XY)=E(X) \cdot E(Y)
这里给一个比较容易理解的说明,而不是证明:
首先,令 E(X)=\sum_{i=1}^mXf(X)E(Y)=\sum_{j=1}^nYg(Y)。于是有:
E(X)E(Y)=[X_1f(X_1)+...+X_mf(X_m)][Y_1g(Y_1)+...+Y_ng(Y_n)]
仔细观察可以发现,根据乘法结合律我们得到了 X_iY_j 之间的所有组合,如 X_1Y_1f(X_1)g(Y_1) 等。
由于是两个独立随机变量,因此两者之积的概率满足 h(XY) = f(X)g(Y)。我们得到了两者乘积的每一个可能值,以及它们对应的概率,全部加起来就是期望的定义。

方差

方差用于表示数据的分散程度。数据波动越大,方差就越大。定义如下:
Var(x)=\sigma^2=\sum(x-\mu)^2f(x)

性质1

如果随机变量x变成bx会如何(b为常数)?显然它只是最后输出的值改变了倍数,但是每个输出的值的概率是一样的,即f(x)=f(bx)。但是,均值会放大b倍。于是上式变成:
Var(bx)=\sum(bx-b\mu)^2f(x) =b^2Var(x)

性质2

如果随机变量x变成(x-E(x))^2呢?其实也就是减去一个常数(总体的期望)再平方。想象色子的点数分别减3.5再平方,变成\{6.25, 2.25, 0.25, 0.25, 2.25, 6.25\},然而每个新的点数出现的概率还是不变,所以f(x)=f((x-E(x))^2)。如果我们求这个新变量的期望:
E((x-E(x))^2)=\sum (x-E(x))^2f((x-E(x))^2)=\sum (x-E(x))^2f(x)

没错,这正是方差的公式。这个式子可以认为是方差的第二种定义,它和第一种定义是等价的。
\mu=E(x),再重复一遍公式:
Var(x)=E[(x-\mu)^2]

性质3

Var(x)=E(x^2)-E(x)^2
证明之前的准备:

  1. E(x)视为一个常数:\sum 2E(x)xf(x)=2E(x)\sum xf(x)=2E(x)^2
  2. 概率之和恒为1:\sum f(x)=1

证明:
根据定义二有:
\begin{aligned} Var(x)&=E((x-E(x))^2) \\ &=E(x^2-2xE(x)+E(x)^2)\\ &=E(x^2)-E(2xE(x))+E(E(x)^2)\\ &=E(x^2)-\sum 2E(x)xf(x)+\sum E(x)^2f(x)\\ &=E(x^2)-2E(x)^2+E(x)^2\sum f(x)\\ &=E(x^2)-2E(x)^2+E(x)^2\\ &=E(x^2)-E(x)^2\\ \end{aligned}
这个可以视为方差的第三个定义式。记忆口诀:“平方内减外”。

性质4

如果x, y是独立的随机变量,那么Var(x+y)=Var(x)+Var(y)

证明:
根据方差的性质3和期望的性质3有:
\begin{aligned} Var(x+y)&=E((x+y)^2)-E(x+y)^2 \\ &=E(x^2+2xy+y^2)-(E(x)+E(y))^2 \\ &=E(x^2)+E(2xy)+E(y^2)-E(x)^2-E(y)^2-2E(x)E(y) \\ &=E(x^2)-E(x)^2+E(y^2)-E(y)^2\\ &=Var(x) + Var(y) \end{aligned}

推广得:如果x_1,...,x_n是一组独立的随机变量,则Var(x_1+...+x_n)=Var(x_1)+...+Var(x_n)。证明和上面基本类似,从略。

性质5: 样本均值的方差

假定有一个随机变量 X 的期望值和方差分别是 \mu, \sigma^2。现在对这个数据集进行随机抽样(有放回的抽样,因为我需要保证整体的分布是不变的),抽到的样本一个一个的数据用 X_1, X_2 ... X_n 表示,现在试求 \bar{ X } 的方差。
根据样本均值的定义我们有:
Var( \bar{ X }) = Var(\dfrac{X_1+X_2+...+X_n}{n})
根据方差的性质1和性质4有:
Var( \bar{ X } ) = \dfrac{1}{n^2}(Var(X_1)+...+Var(X_n))
由于单个的 X_iX 是等价的,因此有:
Var( \bar{ X } ) = \dfrac{1}{n^2}\cdot n \cdot \sigma^2=\dfrac{\sigma^2}{n}
也就是说,样本均值的方差是小于总体的方差的,并且会随着抽样次数增大而减小。

标准差和标准误差

标准差 standard deviation 和 standard error 标准误差,两者都是用来表示数据的变异性,不同之处是前者是通过总体计算,后者是通过样本计算。所谓标准差就是总体的方差的算术平方根,记为\sigma
而一个容量为n的样本的是标准差,叫做标准误差,其值为\sigma/\sqrt{n}。(直接对方差的性质5的式子开方即可)

参考资料

https://newonlinecourses.science.psu.edu/stat414/node/167/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容