2.3.1 条件高斯分布

多元高斯的一个重要性质: 若果两组变量是联合高斯分布,那以一组变量维条件,另一组变量同样是高斯分布。类似的,任何一个变量的边缘分布也是高斯分布

首先来考虑条件概率的情形,本章的重要结论是得出条件高斯分布的p(x_a|x_b)的均值和协方差的表达式为:
\mu_{a|b} = \mu_a+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b)\\ \Sigma_{a|b} = \Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}


假设x是一个服从高斯分布N(x|\mu,\Sigma)的D维向量。我们将x划分为两个不相交的子集x_ax_b。这样我们令x_ax的前M个分量,x_bx的后D-M个分量,有
x=\begin{bmatrix} {x_a}\\ {x_b} \end{bmatrix}
同样均值向量\mu
\mu=\begin{bmatrix} {\mu_a}\\ {\mu_b} \end{bmatrix}
协方差矩阵\Sigma

\Sigma=\begin{bmatrix} {\Sigma_{aa}}&{\Sigma_{ab}}\\ {\Sigma_{ba}}&{\Sigma_{bb}} \end{bmatrix}\\ 其中由于\Sigma的对称性,\Sigma_{aa},\Sigma_{bb}都是对称的,而\Sigma_{ab}^T = \Sigma_{ba}


在这引入精度矩阵\wedge,精度矩阵\wedge是协方差的逆矩阵\Sigma^{-1},高斯分布的一些性质可以使用精度矩阵来表示,对于向量x,其划分形式为
\wedge_=\begin{bmatrix} {\wedge_{aa}}&{\wedge_{ab}}\\ {\wedge_{ba}}&{\wedge_{bb}} \end{bmatrix}\\ 其中对称矩阵的逆矩阵也是对称矩阵,\wedge_{aa},\wedge_{bb}都是对称的,而\wedge_{ab}^T = \wedge_{ba}。\\需要强调的是,\wedge_{aa}并非简单对\Sigma_{aa}求逆,后面会详细讲到


以下为证明

  1. 寻找条件概率p(x_a|x_b)的表达式,将上一章高斯分布指数项给出的二次型公式\Delta^2 = (x-\mu)^T\Sigma^{-1}(x-\mu),结合本章的公式可以得出:
    -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) = \\ -\frac{1}{2}(x_a-\mu_a)^T\wedge_{aa}(x_a-\mu_a)-\frac{1}{2}(x_a-\mu_b)^T\wedge_{ab}(x_a-\mu_b)\\ -\frac{1}{2}(x_b-\mu_a)^T\wedge_{ba}(x_b-\mu_a)-\frac{1}{2}(x_b-\mu_b)^T\wedge_{bb}(x_b-\mu_b)
    从上面的公式来找到p(x_a|x_b)的均值和协方差的表达式

  2. 同时,高斯分布的指数项的完全平方可以写成一般形式
    -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) =-\frac{1}{2}x^T\Sigma^{-1}x+x^T\Sigma^{-1}\mu+C
    一般形式下,x的二阶项的系数矩阵为协方差的逆矩阵\Sigma^{-1},线性项的系数等于\Sigma^{-1}\mu,从而求得协方差矩阵和均值,常数项表示于x无关的项

  3. 将上面的公式应用到高斯分布p(x_a|x_b),将该分布的均值和方差记作\mu_{a|b}\Sigma_{a|b},将x_b当作常量。
    a. 首先我们找出所有x_a二阶项(注意\mu_a,\mu_b,x_b,\wedge等均为常量),有
    -\frac{1}{2}x_a^T\wedge_{aa}x_a
    显而易见
    \Sigma_{a|b} = \wedge_{aa}^{-1}
    b.然后我们考虑x_a的一阶项
    -\frac{1}{2}(x_a-\mu_a)^T\wedge_{aa}(x_a-\mu_a)得到x_a^T\wedge_{aa}\mu_a\\ -\frac{1}{2}(x_a-\mu_b)^T\wedge_{ab}(x_a-\mu_b)得到-\frac{1}{2}(x_a^T\wedge_{ab}x_b-x_a^T\wedge_{ab}\mu_b)\\ -\frac{1}{2}(x_b-\mu_a)^T\wedge_{ba}(x_b-\mu_a)得到-\frac{1}{2}(x_b^T\wedge_{ba}x_a-\mu_b^T\wedge_{ba}x_a)\\ 利用\wedge_{ba}^T = \wedge_{ab},a^T M b = b^TM^Ta的运算法则,可以得到一阶项为\\ a^T(\wedge_{aa}\mu_a-\wedge_{ab}(x_b-\mu_b))
    结合\Sigma_{a|b}可知
    \Sigma_{a|b}^{-1}\mu_{a|b} = \wedge_{aa}\mu_a-\wedge_{ab}(x_b-\mu_b)\\ \mu_{a|b} = \wedge_{aa}^{-1}(\wedge_{aa}\mu_a-\wedge_{ab}(x_b-\mu_b))\\ =\mu_a-\wedge_{aa}^{-1}\wedge_{ab}(x_b-\mu_b)


初步结论
\mu_{a|b} =\mu_a-\wedge_{aa}^{-1}\wedge_{ab}(x_b-\mu_b)\\ \Sigma_{a|b} = \wedge_{aa}^{-1}


初步结论的结果是使用分块精度矩阵\wedge来表达的,下面换成分块协方差矩阵来表达。

对于分块矩阵的逆矩阵有恒等式
\begin{bmatrix} {A}&{B}\\ {C}&{D} \end{bmatrix}^{-1} =\begin{bmatrix} {M}&{-MBD^{-1}}\\ {-D^{-1}CM}&{D^{-1}+D^{-1}CMBD^{-1}} \end{bmatrix}\\ 其中M=(A-BD^{-1}C)^{-1},M^{-1}为左侧矩阵关于子矩阵D的舒尔补

使用该恒等式,有
\wedge_{aa} = (\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})^{-1}\\ \wedge_{ab} = -(\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})^{-1}\Sigma_{ab}\Sigma_{bb}^{-1}

可以得到
\mu_{a|b} =\mu_a+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b)\\ \Sigma_{a|b} = \Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}

另外,条件概率分布p(x_a|x_b)的均值是x_b的线性函数,协方差与x_b无关,这是线性高斯模型的一个例子

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容