2.3 高斯变量

高斯分布
$N(x|\mu,\sigma^2) = \frac{1}{(2\pi\sigma^2)^\frac{1}{2}} \exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$
多元高斯分布(D维)
$N(x|\mu,\Sigma) = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}\\\Sigma是D*D的协方差矩阵，\mu是D维均值向量$
本文旨在证明： $\mu$ 和 $\Sigma$ 为多元高斯分布的均值和方差

二次型 $\Delta^2$
$\Delta^2=(x-\mu)^T\Sigma^{-1}(x-\mu)\\\Delta叫做\mu和x之间的马氏距离，\Sigma为单位矩阵时就变成欧式距离$
矩阵 $\Sigma$ 可以取对称矩阵，因为任何非对称项都会在指数中消失
$考虑协方差特征向量方程\\ \Sigma\mu_i=\lambda\mu_i\\ 由于\Sigma为实对称矩阵，特征值也为实数，因此特征向量可以被选成单位正交\\ \mu_i^T\mu_j = I_{ij}\\协方差矩阵\Sigma可以展开为\\\Sigma=\sum_{i=1}^D\lambda_i\mu_i\mu_i^T\\类似的，\Sigma的逆矩阵\Sigma^{-1}可以写为\\\Sigma^{-1}=\sum_{i=1}^D\frac{1}{\lambda_i}\mu_i\mu_i^T$
因此二次型 $\Delta^2$ 可以写为
$\Delta^2 = \sum^D_{i=1}\frac{y_i^2}{\lambda_i}\\其中y_i = \mu_i^T(x-\mu)$
关于 $y$
$定义y=(y_1,...y_D)^T\\有\\y=U(x-\mu)\\可知道U时正交矩阵，满足\\UU^T=U^TU=I$
二次型 $\Delta^2$ 和 $y$ 和原坐标 $x$ 的对应关系

椭圆曲线表示二维空间

x=(x1,x2)

的高斯分布的常数概率密度的椭圆面，表示的概率密度为

e^{-\frac{1}{2}}

，值在

x=\mu

处计算。椭圆的轴由协方差矩阵的特征向量

\mu_i

定义，特征值（缩放因子）为

\lambda_i^\frac{1}{2}

从 $x$ 坐标系到 $y$ 坐标系，有jacobian矩阵 $J$
$J_{ij} = \frac{\delta x_i}{\delta y_i} = U_{ij}$

$U$ 正交，因此
$|J^2| = |U^T|^2 = |U^T||U| = |U||U^T| = |I| = 1\\ |J|=1$

又行列式 $|\Sigma|$ 可以写成特征值乘积 $|\Sigma|^{\frac{1}{2}} = \prod^D_{j=1}\lambda_j^{\frac{1}{2}}$ ，故 $y$ 坐标系下，高斯分布形式为
$p(y) = p(x)|J|=\prod^D_{j=1}\frac{1}{(2\pi\lambda_j)^\frac{1}{2}}exp\{-\frac{y_j^2}{2\lambda_j}\}$
以上公式是D个独立一元高斯分布的乘积，特征向量定义了一个新的旋转、平移的坐标系，这个坐标系下联合概率分布可以分解成独立分布的乘积

$y$ 坐标系下的概率分布的积分为
$\int p(y)d_y=\prod_{j=1}^D {\int}^{\infty}_{-\infty}\frac{1}{(2\pi\lambda_j)^\frac{1}{2}}\exp\{-\frac{y_j^2}{2\lambda_j}\}d{y_j}=1$

以上是证明 $\mu$ 和 $\Sigma$ 为高斯分布的均值和方差的前备条件，接下来进行证明

证 $E[x]=\mu$
对连续概率密度函数求期望(积分)
$E[x] = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}xdx$
令 $z=x-\mu$
$E[x] = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\}(z+\mu)dz$
由于积分区域是(-\infty,\infty),根据对称性可得(z+\mu)中的z项为零，因此:
$E[x]=\mu$
也就是证明了文章一开始的D维均值向量就是多元高斯分布的均值(应该是这样??)
证 $var[x] = \Sigma$
求高斯分布的二阶矩(PS：二阶(非中心)矩是对变量的平方求期望，一阶矩就是对变量求期望)
一元变量下，二阶矩由 $E[x^2]$ 给出；对于多元高斯分布，有 $D^2$ 个由 $E[x_ix_j]$ 给出的二阶矩，也就是矩阵 $E[xx^T]$
$E[xx^T]=\frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\Sigma|^{\frac{1}{2}}}\int\exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}xx^Tdx$
令 $z=x-\mu$
$E[xx^T] = \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\}(z+\mu)(z+\mu)^Tdz\\=\frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\}(zz^T+\mu\mu^T+\mu z^T+z\mu^T)dz$
由于对称性 $\mu z^T$ 和 $z\mu^T$ 项互相抵消， $\mu\mu^T$ 为常数，因此我们先计算 $zz^T$ 项
$这里的证明没有看懂，最后可以写成\\ \frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\int\exp\{-\frac{1}{2}z^T\Sigma^{-1}z\} zz^Tdz\\ =\frac{1}{(2\pi)^\frac{D}{2}}\frac{1}{|\Sigma|^\frac{1}{2}}\sum^D_{i=1}\sum^D_{j=1}u_iu_j^T\int \exp\{-\sum^D_{k=1}\frac{y_k^2}{2\lambda_k}\}y_iy_jdy\\=\sum^D_{i=1} u_i u_i^T \lambda_i=\Sigma\\ 因此 E[xx^T]=\mu\mu^T+\Sigma$
定义协方差 $var[x]$
$var[x] = E[(x-E[x])(x-E[x])^T]$
由于高斯分布 $E[x]=\mu$ ，结合 $E[xx^T]$ ，得到
$var[x]=\Sigma$
也就是文首的 $D*D$ 的协方差矩阵

2.3 高斯变量

2.3 高斯变量

相关阅读更多精彩内容

友情链接更多精彩内容