作 者: 心有宝宝人自圆
声 明: 欢迎转载本文中的图片或文字,请说明出处
写在前面
最近读到的文章需要深入的了解概率图模型(Probability Graph Model)才能搞清楚使用深度学习方法建模的原理,所以整理一下概率图模型的相关内容来加深理解(果然再消化一遍就会有新的收获😀)
我写的这篇学习笔记没有使用非常标准的术语,我认为重要的是理解有关的概念
这篇文章主要介绍概率图模型的表示,包括有向图(贝叶斯网)和无向图(马尔可夫网、马尔可夫随机场)
0.Background
0.1 概率
对于n维离散随机变量,其中
为了对该随机变量建模,我们需要两种最基本的概率
可以通过边缘概率和条件概率推导出:
不难发现若要为建模,计算量是随维度指数增长的,计算十分复杂
因此为了简化计算,提出了一些简化的条件:
- 独立性假设:
,如朴素贝叶斯,但条件过强
- 马尔可夫假设:
意味着当前随机变量只与前k个随机变量有关,如一阶马尔可夫过程
,虽然条件有些放松但仍过强
- 条件独立性假设:
连续随机变量也有类似的情况,出于简单只考虑离散随机变量
0.2 图
0.2.1 表示
0.2.2 推断
0.2.3 学习
1. 有向图 Bayesian Network
1.1 表示
前提条件:随机变量之间存在条件独立性
构建有向图:对随机变量拓扑排序
因子分解:根据有向图直接得出模型
例子:有向图的局部结构:贝叶斯网络本身就蕴含了条件独立的性质
1.2 D划分 D-Separation
作用:基于有向图检测随机变量之间的独立的图形化方法
条件独立性:
- Tail-to-Tail型:
,即路径都通过
才满足条件独立
- Head-to-Tail型:
,即路径都通过
才满足条件独立
- Head-to-Head型:
,即路径都不能通过
和c的子孙才满足条件独立
换句话说就是路径阻塞时才(条件)独立,若连通则不独立
1.3 条件独立性
全局马尔可夫性:有向图的D划分体现出有向图的全局马尔可夫性(在整个有向图成立)
局部马尔可夫性:设a是我们关注的结点
现在考虑
在使用代表
中与
有关的项,
- 在有向图中,与
相关的结点和边成了马尔可夫毯(即与
相邻接的所有结点)
由于连乘,分母中积分(或者说)中的与
无关的项可提到积分号外与分子约分
最后得到
2. 无向图 Markov Network
2.1 条件独立性
我认为这部分可描述为Markov Network(又称Markov Random Field)的定义
条件独立性:
由于无向图中无方向,所以就没有3种局部结构的区分,因此条件独立性会很简单,相反因子分解则很复杂
- 全局马尔可夫性:
之间的每一条路径中至少一个结点c在
集合中,此时观测c组成的集合
,路径会被阻断,此时有
(换句话说,只要观测一个节结点通过该节结点这一条路径就被阻断了,然而两个结点仍可以通过其它路径连通)
- 局部马尔可夫性:设a是我们关注的结点,则
。(换句话说,阻断了a的全部路径,a就和其余的结点独立了)
- 成对马尔可夫性:
。(这个性质是局部马尔可夫性的推论,任意两个不邻接的结点在其余结点给定的条件下是条件独立的)
这三个条件独立性是相互等价的,可以相互推出
2.1 表示
无向图在构建联合概率分布(因子分解)时比有向图复杂很多,并且难以表达
为了解决这一问题,先给出图中的一些定义:
- 团:一个关于结点的集合,集合内的任何两个结点之间有边连接(邻接)
- 最大团:团中无法再填加任何一个结点形成一个更大的团
所以我们要把因子分解定义在团之上:
(类似于使联合分布表内各种联合概率之和为1/计算类似于softmax的归一化过程)
由于团的同样个数过多,因此在再把因子分解定义在最大团之上
2.2.1 Hammersley-Clifford定理
Hammersley-Clifford定理保证基于最大团的因子分解与无向图的条件独立性等价(2.1节)
换句话说根据Hammersley Clifford定理,一个无向图模型的概率可以表示为定义在图上所有最大团上的势函数的乘积(证明Hammersley-Clifford定理)
有兴趣可以看一下😀就是证明:
参考上述博文给出定理的证明并将一些问题进行解释:
必要性:
等价于
证明目标:
马尔可夫网络(马尔科夫随机场(MRF))的条件独立性是等价的,我们选择局部马尔可夫性作为目标:
设
是结点的全集(所有随机变量),
是我们关注的结点(随机变量),
是
邻接的结点(随机变量),
(注:集合的加减法表示加入或去除元素,可以集合与集合运算或集合与元素运算,,代替交集并集啥的 )
证明过程:
设
表示
于其邻接的结点组成的集合,
表示最大团的集合
这里的
,就很像边缘概率分布(但还保留了一部分随机变量而非仅一个)
(注:这里的积分号和累加号是很多个目标集合内结点(随机变量)的累加)
根据上述因子分解的表示
设
为
中包含
的最大团,
为
中不包含
的最大团,
不难发现:由于最大团的定义,
中的最大团必须是
的子集
其中
可以提到求和(积分)号之外,就是因为
是
的子集(与
交集为空)
充分性:
等价于
证明目标:无向图模型的联合概率
可以表示为图上所有团的势函数乘积(或者说联合概率能分解为定义在团上的乘积,且团覆盖了无向图的所有顶点和边)
证明过程:
先假设如下势函数:对任意
,有势函数
是
的任意子集,
是
的任意子集
表示将处
包含的结点外分配默认值,记作0
分别标识
集合中的结点个数
很显然该势函数是非负的(概率非负)
只需证明如下2点,即可说明MRF的联合概率
可表示为图上所有团的势函数乘积
(1)
(2)若
不是一个团,则
证(1):
对任意子集
(注意此处不再仅仅限定
,且
)设与
相关的因子为
a)
的情况出现了一次,此时
b)
的情况出现了
次(组合数),此时
c)
的情况出现了
次,此时
...
n)
的情况出现了
次(这是
的最大情况,即等于
),此时
依此类推,所有与
相关的
连乘(记作
)为:
又有
故当
时
,此时不为1的仅剩
的情况(记作
)
证(2):
该证明需要用到无向图的马尔可夫性。若
不是一个团,那么必存在两个结点
没有边连接,故
不难发现这种拆分方法将
分开来考虑(
可以为空集),而由于接下来的证明与指数
无关,我们就不用在意其具体表示了
关于拆分后的形式:
项之所以在分子,是因为
,故该项在分子上,同理
和
项由于
而为原始项的倒数而在分母上,所有这是正确的表达式
根据条件概率公式有:
由于
在给定其他结点的条件下是条件独立的(成对马尔可夫性),故上式右边等价于
将其代入上面的式子会发现:
即可完成证明
由于最大团的势函数可有团的势函数表示,故在最大团上该结论也成立
2.2.2 势函数与吉布斯分布
为保证势函数为正,一般使用
这样构成的联合概率是吉布斯分布(Gibbs Distribution)
不难发现:Gibbs Distribution就是一种指数族分布,这又和最大熵产生了联系
结论:马尔可夫随机场(马尔可夫网)等价于吉布斯分布(都在Hammersley-Clifford定理的证明中有体现)
Reference
[1] 【机器学习】【白板推导系列】
转载请说明出处。