理解期望、方差常见公式

先从基本概念讲起。

期望

对于一个随机变量 $x$ ，它在取不同值时的概率用函数 $f(x)$ 表示。比如色子的点数是一个随机变量，它为1的概率可以表达成 $f(1)=1/6$ ，这与我们代数中的函数有点不同，代数中的函数是输入一个确切的数，而这里不是。我甚至可以用 $f(heads)=0.5$ 来表示投硬币为正面的概率。不过，本文其余部分都要求概率函数的输入值是数字。
期望表示随机变量的中心位置。例如你投色子很多次，最后计算的点数平均值应该是所有点数的均值，因为出现每种点数的概率相同。如果概率不同，则需要用概率加权，于是我们的期望公式就是：
$E(x)=\mu=\sum xf(x)$

它表示把每一种可能的输出的值乘以其概率后求和。

性质1: 期望的线性关系

对于两个相互独立的随机变量 $X, Y$ ，我们有：
$E(X+Y)=E(X)+E(Y)$
这个就不做证明了。有2个色子各自投掷，两者的期望都是 $E=\dfrac{1}{6}\times (1+...+6)=3.5$ ，那么问两个色子之和的期望，显然是 $3.5+3.5=7$ 。这是可以直观认知的。用 $c_i$ 表示一个常数，它只是缩放每一个随机变量的值而已，进一步推广我们有：
$E\left[\sum_{i=1}^nc_iX_i\right]=\sum_{i=1}^n[c_iE(X_i)]$

性质2: 样本均值的期望

假定有一个随机变量 $X$ 的期望值和方差分别是 $\mu, \sigma^2$ 。现在对这个数据集进行随机抽样（有放回的抽样，因为我需要保证整体的分布是不变的），抽到的样本一个一个的数据用 $X_1, X_2 ... X_n$ 表示，现在试求 $\bar{ X }$ 的期望。
根据样本均值的定义我们有：
$E(\bar{ X } ) = E(\dfrac{X_1+X_2+...+X_n}{n})$
根据性质1的推论：
$E(\bar{ X } ) = \dfrac{1}{n}[E(X_1)+E(X_2)+...+E(X_n)]$
由于每个 $X_i$ 所属的分布和 $X$ 是一样的。两者都是有放回地随机抽一个，因此：
$E( \bar{ X } ) = \dfrac{1}{n}(\sum_{i=1}^nE(X))=\dfrac{1}{n}\cdot n \cdot \mu=\mu$
我们的结论是：有放回的随机抽样的样本均值和总体均值的期望是一致的。

性质3: 期望的乘积关系

对于两个相互独立的随机变量 $X, Y$ ，我们有：
$E(XY)=E(X) \cdot E(Y)$
这里给一个比较容易理解的说明，而不是证明：
首先，令 $E(X)=\sum_{i=1}^mXf(X)$ ， $E(Y)=\sum_{j=1}^nYg(Y)$ 。于是有：
$E(X)E(Y)=[X_1f(X_1)+...+X_mf(X_m)][Y_1g(Y_1)+...+Y_ng(Y_n)]$
仔细观察可以发现，根据乘法结合律我们得到了 $X_i$ 与 $Y_j$ 之间的所有组合，如 $X_1Y_1f(X_1)g(Y_1)$ 等。
由于是两个独立随机变量，因此两者之积的概率满足 $h(XY) = f(X)g(Y)$ 。我们得到了两者乘积的每一个可能值，以及它们对应的概率，全部加起来就是期望的定义。

方差

方差用于表示数据的分散程度。数据波动越大，方差就越大。定义如下：
$Var(x)=\sigma^2=\sum(x-\mu)^2f(x)$

性质1

如果随机变量 $x$ 变成 $bx$ 会如何（ $b$ 为常数）？显然它只是最后输出的值改变了倍数，但是每个输出的值的概率是一样的，即 $f(x)=f(bx)$ 。但是，均值会放大 $b$ 倍。于是上式变成：
$Var(bx)=\sum(bx-b\mu)^2f(x) =b^2Var(x)$

性质2

如果随机变量 $x$ 变成 $(x-E(x))^2$ 呢？其实也就是减去一个常数（总体的期望）再平方。想象色子的点数分别减3.5再平方，变成 $\{6.25, 2.25, 0.25, 0.25, 2.25, 6.25\}$ ，然而每个新的点数出现的概率还是不变，所以 $f(x)=f((x-E(x))^2)$ 。如果我们求这个新变量的期望：
$E((x-E(x))^2)=\sum (x-E(x))^2f((x-E(x))^2)=\sum (x-E(x))^2f(x)$

没错，这正是方差的公式。这个式子可以认为是方差的第二种定义，它和第一种定义是等价的。
令 $\mu=E(x)$ ，再重复一遍公式：
$Var(x)=E[(x-\mu)^2]$

性质3

$Var(x)=E(x^2)-E(x)^2$
证明之前的准备：

$E(x)$ 视为一个常数： $\sum 2E(x)xf(x)=2E(x)\sum xf(x)=2E(x)^2$
概率之和恒为1： $\sum f(x)=1$

证明：
根据定义二有：
$\begin{aligned} Var(x)&=E((x-E(x))^2) \\ &=E(x^2-2xE(x)+E(x)^2)\\ &=E(x^2)-E(2xE(x))+E(E(x)^2)\\ &=E(x^2)-\sum 2E(x)xf(x)+\sum E(x)^2f(x)\\ &=E(x^2)-2E(x)^2+E(x)^2\sum f(x)\\ &=E(x^2)-2E(x)^2+E(x)^2\\ &=E(x^2)-E(x)^2\\ \end{aligned}$
这个可以视为方差的第三个定义式。记忆口诀：“平方内减外”。

性质4

如果 $x, y$ 是独立的随机变量，那么 $Var(x+y)=Var(x)+Var(y)$ 。

证明：
根据方差的性质3和期望的性质3有：
$\begin{aligned} Var(x+y)&=E((x+y)^2)-E(x+y)^2 \\ &=E(x^2+2xy+y^2)-(E(x)+E(y))^2 \\ &=E(x^2)+E(2xy)+E(y^2)-E(x)^2-E(y)^2-2E(x)E(y) \\ &=E(x^2)-E(x)^2+E(y^2)-E(y)^2\\ &=Var(x) + Var(y) \end{aligned}$

推广得：如果 $x_1,...,x_n$ 是一组独立的随机变量，则 $Var(x_1+...+x_n)=Var(x_1)+...+Var(x_n)$ 。证明和上面基本类似，从略。

性质5: 样本均值的方差

假定有一个随机变量 $X$ 的期望值和方差分别是 $\mu, \sigma^2$ 。现在对这个数据集进行随机抽样（有放回的抽样，因为我需要保证整体的分布是不变的），抽到的样本一个一个的数据用 $X_1, X_2 ... X_n$ 表示，现在试求 $\bar{ X }$ 的方差。
根据样本均值的定义我们有：
$Var( \bar{ X }) = Var(\dfrac{X_1+X_2+...+X_n}{n})$
根据方差的性质1和性质4有：
$Var( \bar{ X } ) = \dfrac{1}{n^2}(Var(X_1)+...+Var(X_n))$
由于单个的 $X_i$ 和 $X$ 是等价的，因此有：
$Var( \bar{ X } ) = \dfrac{1}{n^2}\cdot n \cdot \sigma^2=\dfrac{\sigma^2}{n}$
也就是说，样本均值的方差是小于总体的方差的，并且会随着抽样次数增大而减小。

标准差和标准误差

标准差 standard deviation 和 standard error 标准误差，两者都是用来表示数据的变异性，不同之处是前者是通过总体计算，后者是通过样本计算。所谓标准差就是总体的方差的算术平方根，记为 $\sigma$ 。
而一个容量为 $n$ 的样本的是标准差，叫做标准误差，其值为 $\sigma/\sqrt{n}$ 。（直接对方差的性质5的式子开方即可）

参考资料

https://newonlinecourses.science.psu.edu/stat414/node/167/

最后编辑于：2020.07.18 16:37:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 225,226评论 6赞 524
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 96,509评论 3赞 405
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 172,523评论 0赞 370
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 61,181评论 1赞 302
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 70,189评论 6赞 401
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,642评论 1赞 316
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 41,993评论 3赞 431
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,977评论 0赞 280
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,527评论 1赞 326
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,547评论 3赞 347
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,661评论 1赞 355
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,250评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,991评论 3赞 340
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,422评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,571评论 1赞 277
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,241评论 3赞 382
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,737评论 2赞 366