Author: Pan
Date: 2020/7/15
首先,我们通过随机向量的介绍来引出多元高斯分布,通过多元高斯分布,我们将介绍概率图的条件独立性假设。
先快速过一遍随机向量:
1.随机向量和其基本性质
假设随机向量,那么假设它有个累积分布(Cumulative Distribution Function;CDF)
1. 1 当随机向量的每个元素取值均绝对连续(Absolutely Continuous): 假设存在一个概率密度函数(Probability Density Function;PDF),则有
1. 2 当随机向量的每个元素取值均为离散值,构成离散分布(Discrete distributions):假设存在一个概率质量函数(Probability Mass Function;PMF),则有
1. 3 边界分布和条件分布以及独立性:
假设
那么其边界分布可以定义为:
其条件分布可定义为:
条件概率的性质:
条件方差公式:
重要推论:
独立性:
独立(if )
2.随机向量的协方差矩阵与相关系数矩阵
在讨论随机变量的协方差和相关系数矩阵之前,我们需要定义一个矩阵值函数,将随机变量中的性质,推广到随机向量中。在定义矩阵值函数之前,我们需要先定义一个从向量到标量的映射函数;
那么它的期望为:
只要积分收敛,这个期望就是有限的。
定义矩阵值函数
且有:
举个特殊的例子,X有p个特征:
其中;
2.1 随机向量的协方差矩阵
有一点值得注意:
说明V(X)是对称半正定矩阵
2.2 随机向量的相关系数矩阵
3. 样本的协方差矩阵
前面都是快速过,这里有比较好玩的东西。
首先有个样本集:
样本集的协方差:
展开:
令:
继续:
因为;
将上式代入原式中,可得:
实际上是中心矩阵,它实际上把数据X的均值归到0,
且,说明0是它的一个特征值,不满秩,是个奇异矩阵。
可用来直接算样本协方差。
4. 多元高斯分布
假设m维随机向量;
m维向量;
半正定的协方差矩阵;
PDF:
不加以证明的给出两个定理,这个是为了证明第三个定理做铺垫,第三个定理是为了讲解概率图的条件独立性假设做铺垫:
定理1:如果,B是个的矩阵,是个的向量,
有 是个非奇异的矩阵。那么,对于; 有。
多元高斯分布是一个建模能力很强的分布,因为很多情况下,数据在做归一化后,很多都可以依分布收敛于高斯分布。由于为实对称矩阵,可正交对角化,即总有;其中正交阵:;令,所以可以得出:
定理2:当,当且仅当,和相互独立;
定理2的证明:
1.根据定理1,;;对于高斯分布来说,
独立性与不相关等价,所以要证明AX与BX独立,可以证明两者不相关;即:
证明如下:
因为:;
所以
当时:
成立,所以AX与BX不相关,因此,AX与BX独立。
定理3:定义
将表示为分块矩阵:
如果;;
那么:
且:;
其中:
证明:
根据定理一,我们试图找到某个系数矩阵,将X分别映射为;通过这样,我们便能确定他们的分布以求得他们的均值和方差。
对于,很明显,
;
;
那么的方差为:
;
证明的独立性,
根据定理2,且是个实对称矩阵,
可得;
所以证明得。
定理3证毕。
既然有了定理3,我们就可以讨论条件分布
该条件分布依然是高斯分布,我们计算其期望和方差:
由于;
所以,在给定的情况下,是个常0数,所以期望只要算的期望就行。
所以整个
所以
其实证了这么多是要说明一个什么问题呢?
那就是
原因是他们的期望和方差都不一样,所以之间并不独立。
但是之间却是相互独立的。说明比更能完整表达X的整体信息。更为重要的是:
原矩阵相似于。这将在之后的概率图中有重要作用。
5.概率图的条件独立性
高斯无向图的条件独立性假设与计算
假设;
其中X中的每个元素代表图中的每一个点,两个点之间是否有关系(有连接)取决于两个点之间是否独立,独立就是没关系,否则有关系:
所以我们这么定义:
全局关系:
全局关系指的是任意拿出两点,检验他们是否独立。
局部关系:
局部关系指的是在其他已知点(除了两点的其他点)的情况下,检验是否独立。
对于全局关系,要判断上述两点独立,当且仅当
对于局部关系,要判断上述两点条件独立,要看中的元素,即:
同样我们将也进行分块化的处理:
即:
现将X划分成两部分
所以由
因为定理3中给出的是
对应的
由可以得出:
(1).
(2).
(3).
(4).
由(2)(3)可得:;;
又
将(1)中两边同左乘一个得:;
带入后得;
所以
所以结合上述二式有
因为是一个的矩阵(这里都是数值矩阵,没有分块)
对求逆即可。
要判定局部情况只需判定均为0即可。
因此问题
转化为
鉴于均值中的计算量特别大,又;
将均值改为:
这样就大大简化了计算量。
这其实意味着,均值其实表现为其他数据的线性组合。当概率图中有点和当前点独立时,中就有许多与其独立的点对应的值为0,我们的目的其实就是去学这样的参数来完成预测。基于此,以后会谈到流形学习和具体的概率图的模型,策略以及算法。
PS:高斯的协方差逆矩阵真的是神来之笔~