M-方差、协方差、协方差矩阵

0.目录

在统计学中，方差是用来度量单个随机变量的离散程度，而协方差则一般用来刻画两个随机变量的相似程度。

1.方差（Variance）

用来度量随机变量X 与其均值E(X) 的偏离程度，方差是各个样本与样本均值的差的平方和的均值：

$\sigma_x^2 = var(X) = cov(X, X) = E[(X - E[X])^2] = \frac{\sum_{i=1}^{n}(X_i - \overline{X})^2}{n-1}$
其中 $n$ 表示样本量，符号 $\overline{X}$ 表示观测样本的均值

2.协方差（Covariance）

随机变量的协方差
跟数学期望、方差一样，是分布的一个总体参数。在概率论和统计中，协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为零。正相关，负相关。
$cov(X,Y) = E[(X - E[X])(Y - E[Y])]$
当X，Y是同一个随机变量时，X与其自身的协方差就是X的方差，可以说方差是协方差的一个特例。
$cov(X,X) = E[(X - E[X])(X - E[X])] = E[(X - E[X])^2] = var(X)$
由于随机变量的取值范围不同，两个协方差不具备可比性。如X，Y，Z分别是三个随机变量，想要比较X与Y的线性相关程度强，还是X与Z的线性相关程度强，通过 $cov(X,Y)$ 与 $cov(X,Z)$ 无法直接比较。定义相关系数 $\eta$ 为：
$η = \frac{cov(X,Y)}{\sqrt{var(X)⋅var(Y)}}$
通过X的方差 $var(X)$ 与Y的方差var(Y)对协方差 $cov(X,Y)$ 归一化，得到相关系数 $\eta$ ， $\eta$ 的取值范围是[−1,1]。1表示完全线性相关，−1表示完全线性负相关，0表示线性无关。线性无关并不代表完全无关，更不代表相互独立。
样本的协方差
在实际中，通常我们手头会有一些样本，样本有多个属性，每个样本可以看成一个多维随机变量的样本点，我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系的参数，由于不知道具体的分布，只能通过样本来进行估计。设样本对应的多维随机变量为 $X=[X1,X2,X3,...,Xn]T$ ，样本集合为 ${x⋅j=[x1j,x2j,...,xnj]T|1⩽j⩽m}，m\text{为样本数量}$ 。与样本方差的计算相似，a和b两个维度样本的协方差公式为，其中 $1⩽a⩽n，1⩽b⩽n，n\text{为样本维度}$ 。
$q_{ab} = \frac{\sum_{j=1}^{m}(x_{aj} - \overline{x}_a)(x_{bj} - \overline{x}_{b})}{m−1}$
这里分母为m−1是因为随机变量的数学期望未知，以样本均值代替，自由度减一。

3.协方差矩阵（Covariance matrix）

对多维随机变量 $X = [X_1,X_2,X_3...X_n]^T$ ，我们往往需要计算各维度两两之间的协方差，这样各协方差组成了一个 $n×n$ 的矩阵，称为协方差矩阵。协方差矩阵是个对称矩阵，对角线上的元素是各维度上随机变量的方差。我们定义协方差矩阵为 $\Sigma$ ，这个符号与求和 $\Sigma$ 相同，需要根据上下文区分。矩阵内的元素 $\Sigma_{ij}$ 为：
$\Sigma_{ij} = cov(X_i,X_j) = E[(X_i - E[X_i])(X_j - E[X_j])]$
这样这个矩阵为：
$\Sigma = E[(X - E[X])(X - E[X])^T]$
$= \left[ \begin{matrix} cov(X_1,X_1) & \cdots & cov(X_1,X_n) \\ \vdots & \ddots & \vdots \\ cov(X_n,X_1) & \cdots & cov(X_n,X_n) \\ \end{matrix} \right] = \mathbb{R}^{n \times n}$
$= \left[ \begin{matrix} E[(X_1 - E[X_1])(X_1 - E[X_1])] & \cdots & E[(X_1 - E[X_1])(X_n - E[X_n])] \\ \vdots & \ddots & \vdots \\ E[(X_n - E[X_n])(X_1 - E[X_1])] & \cdots & E[(X_n - E[X_n])(X_n - E[X_n])] \\ \end{matrix} \right]$
样本的协方差矩阵
与上面的协方差矩阵相同，只是矩阵内各元素以样本的协方差替换。样本集合为 ${x_{.j} = [x_{ij},x_{2j}...x_{nj}]^T|1 \le j \le m}, \text{m为样本数量}$ 。所有样本可以表示成一个n×m的矩阵。我们 $\hat{\Sigma}$ 表示样本的协方差矩阵，与 $\Sigma$ 区分。
$\hat{\Sigma} = \left[ \begin{matrix} {} q_{11} & \cdots & q_{1n} \\ \vdots & \ddots & \vdots \\ q_{n1} & \cdots & q_{nn} \end{matrix} \right] = \mathbb{R}^{n \times n}$
$=\frac{1}{m-1} \left[ \begin{matrix} {} \sum_{j=1}^{m}(x_{1j} - \overline{x}_1)(x_{1j} - \overline{x}_{1}) & \cdots & \sum_{j=1}^{m}(x_{1j} - \overline{x}_1)(x_{nj} - \overline{x}_{n}) \\ \vdots & \ddots & \vdots \\ \sum_{j=1}^{m}(x_{nj} - \overline{x}_n)(x_{1j} - \overline{x}_{1}) & \cdots & \sum_{j=1}^{m}(x_{nj} - \overline{x}_n)(x_{nj} - \overline{x}_n) \end{matrix} \right]$
$= \frac{1}{m-1}\sum_{j=1}^{m}(x_{.j} - \overline{x})(x_{.j} - \overline{x})^T$
公式中m 为样本数量，x¯为样本的均值，是一个列向量，x⋅j 为第 j 个样本，也是一个列向量。

在写程序计算样本的协方差矩阵时，我们通常用后一种向量形式计算。一个原因是代码更紧凑清晰，另一个原因是计算机对矩阵及向量运算有大量的优化，效率高于在代码中计算每个元素。

需要注意的是，协方差矩阵是计算样本不同维度之间的协方差，而不是对不同样本计算，所以协方差矩阵的大小与维度相同。

很多时候我们只关注不同维度间的线性关系，且要求这种线性关系可以互相比较。所以，在计算协方差矩阵之前，通常会对样本进行归一化，包括两部分：
1. $y_{.j} = x_{.j} - \hat{x}$ 。即对样本进行平移，使其重心在原点
2. $z_{j.} = \frac{y_{j.}}{\sigma_i}$ ，其中 $\sigma_i$ 是维度 $i$ 的标准差。这样消除了数值大小的影响
这样，协方差矩阵 $\hat{\Sigma}$ 可以写成：
$\hat{\Sigma} = \frac{1}{m-1}\sum_{j=1}^{m}z_{.j}z_{.j}^T$
该矩阵内的元素具有可比性。

3. 多元正态分布与线性变换

引用

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,907评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,987评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,298评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,586评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,633评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,488评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,275评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,176评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,619评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,819评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,932评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,655评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,265评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,871评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,994评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,095评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,884评论 2赞 354