概率图模型（1）：表示

作者：心有宝宝人自圆
声明：欢迎转载本文中的图片或文字，请说明出处

写在前面

最近读到的文章需要深入的了解概率图模型（Probability Graph Model）才能搞清楚使用深度学习方法建模的原理，所以整理一下概率图模型的相关内容来加深理解（果然再消化一遍就会有新的收获😀）

我写的这篇学习笔记没有使用非常标准的术语，我认为重要的是理解有关的概念

这篇文章主要介绍概率图模型的表示，包括有向图（贝叶斯网）和无向图（马尔可夫网、马尔可夫随机场）

0.Background

0.1 概率

对于n维离散随机变量 $\boldsymbol x=(x_1,x_2,...,x_n)$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(m)})',i=1,2,....,n$

为了对该随机变量 $\boldsymbol x$ 建模，我们需要两种最基本的概率

$\begin{cases}边缘概率P(x_i)=\sum_{k_1=1}^m...\sum_{k_{n-1}=1}^m P(x_1^{(k1)},x2^{(k2)},...,x_i,...,x_n^{k_{n-1}})\\条件概率P(x_j|x_i)=\frac{P(x_i,x_j)}{P(x_i)}\end{cases}$

可以通过边缘概率和条件概率推导出：

$链式法则：P(x_1,x_2,...,x_n)=\prod_{i=1}^n(x_i|x_1,..,x_{i-1})$

$贝叶斯法则：P(x_2|x_1)=\frac{P(x_1,x_2)}{P(x_1)}=\frac{P(x_1,x_2)}{\int P(x_1,x_2)dx_2}=\frac{P(x_2)P(x_1|x_2)}{\int P(x_2)P(x_1|x_2)dx_2}$

不难发现若要为 $P(\boldsymbol x)=P(x_1,x_2,...,x_n)$ 建模，计算量是随维度指数增长的，计算十分复杂

因此为了简化计算，提出了一些简化的条件：

独立性假设： $P(x_1,...,x_n)=\prod_{i=1}^nP(x_i),x_i\bot x_j$ ，如朴素贝叶斯，但条件过强
马尔可夫假设： $x_j\bot x_{i+1}|x_{i-k+1},i<j$ 意味着当前随机变量只与前k个随机变量有关，如一阶马尔可夫过程 $P(x_1,...,x_n)=P(x_1)\prod_{i=2}^nP(x_i|x_{i-1}),其中x_j\bot x_{i+1}|x_i,i<j$ ，虽然条件有些放松但仍过强
条件独立性假设： $(\boldsymbol x_A\bot \boldsymbol x_B)| \boldsymbol x_C，其中\boldsymbol x_A，\boldsymbol x_B，\boldsymbol x_C是不相交的集合$

连续随机变量也有类似的情况，出于简单只考虑离散随机变量

0.2 图

0.2.1 表示

$\begin{cases}一般是离散随机变量\begin{cases}有向图 Bayesian Network\\无向图 Markov Network\end{cases}\\服从高斯分布的连续变量\begin{cases}有向图 Gauss B N\\无向图 Gauss M N\end{cases}\end{cases}$

0.2.2 推断

$\begin{cases}精确推断：直接根据图计算概率分布\\近似推断\begin{cases}确定性近似推断（变分推断）\\随机近似：蒙特卡洛采样（MCMC）\end{cases}\end{cases}$

0.2.3 学习

$\begin{cases}参数学习\begin{cases}完备数据：即无隐变量的数据，有向图和无向图有各自的算法\\隐变量：EM算法\end{cases}\\结构学习：学习适合数据的图模型和参数\end{cases}$

1. 有向图 Bayesian Network

1.1 表示

前提条件：随机变量 $x_1,x_2,...,x_n$ 之间存在条件独立性

构建有向图：对随机变量 $x_1,...,x_n$ 拓扑排序

因子分解：根据有向图直接得出模型 $P(x_1,x_2,...,x_n)=\prod_{i=1}^n P(x_i|\boldsymbol x_{Pa_=(i)})，其中\boldsymbol x_{Pa(i)}是x_i的父结点的集合$

例子：有向图的局部结构：贝叶斯网络本身就蕴含了条件独立的性质

有向图的局部结构

1.2 D划分 D-Separation

作用：基于有向图检测随机变量之间的独立的图形化方法

条件独立性： $(\boldsymbol x_A\bot \boldsymbol x_B)| \boldsymbol x_C，其中\boldsymbol x_A，\boldsymbol x_B，\boldsymbol x_C是不相交的集合$

Tail-to-Tail型： $a\in \boldsymbol x_C,b\in \boldsymbol x_A (或\boldsymbol x_B),c\in \boldsymbol x_B (或\boldsymbol x_A)$ ，即路径都通过 $\boldsymbol x_C$ 才满足条件独立
Head-to-Tail型： $b\in \boldsymbol x_C,a\in \boldsymbol x_A (或x_B),c\in \boldsymbol x_B (或\boldsymbol x_A)$$a\in \boldsymbol x_C,b\in \boldsymbol x_A (或\boldsymbol x_B),c\in \boldsymbol x_B (或\boldsymbol x_A)$ ，即路径都通过 $\boldsymbol x_C$ 才满足条件独立
Head-to-Head型： $a\in \boldsymbol x_A (或\boldsymbol x_B),b\in \boldsymbol x_B (或\boldsymbol x_A),c和c的子孙(如d)必须在\boldsymbol x_A\and \boldsymbol x_B\and \boldsymbol x_C的补集中$ ，即路径都不能通过 $\boldsymbol x_C$ 和c的子孙才满足条件独立

换句话说就是路径阻塞时才（条件）独立，若连通则不独立

1.3 条件独立性

全局马尔可夫性：有向图的D划分体现出有向图的全局马尔可夫性（在整个有向图成立）
局部马尔可夫性：设a是我们关注的结点 $a\bot (\{祖先结点集合\}-父结点)\or非子孙结点|父结点$

现在考虑 $P(x_k|\boldsymbol x_{-k})=P(x_k|x_1,..,x_{k-1},x_{k+1},..,x_n)$

$P(x_k|\boldsymbol x_{-k})=\frac{P(x_k,\boldsymbol x_{-k})}{P(\boldsymbol x_{-k})}=\frac{P(\boldsymbol x)}{\int_{x_k}P(\boldsymbol x)dx_k}=\frac{\prod_{i=1}^nP(x_i|\boldsymbol x_{Pa(i)})}{\int_{x_k}\prod_{i=1}^nP(x_i|\boldsymbol x_{Pa(i)})dx_k}$

在使用 $\Delta$ 代表 $\prod_{i=1}^nP(x_i|x_{\boldsymbol Pa(i)})$ 中与 $x_k$ 有关的项， $\Delta=P(x_k|\boldsymbol x_{Pa(k)})\cdot\prod_{s\in \boldsymbol x_{Child(k)}}P(x_s|x_k,\boldsymbol x_{Pa(s)}-x_k)$

在有向图中，与 $x_k$ 相关的结点和边成了马尔可夫毯（即与 $x_k$ 相邻接的所有结点）

由于连乘，分母中积分（或者说 $\sum$ ）中的与 $x_k$ 无关的项可提到积分号外与分子约分

最后得到 $P(x_k|\boldsymbol x_{-k})=\frac{\Delta}{\int_{x_k}\Delta dx_k}$

2. 无向图 Markov Network

2.1 条件独立性

我认为这部分可描述为Markov Network（又称Markov Random Field）的定义

条件独立性： $(\boldsymbol x_A\bot \boldsymbol x_B)| \boldsymbol x_C，其中\boldsymbol x_A，\boldsymbol x_B，\boldsymbol x_C是不相交的集合$

由于无向图中无方向，所以就没有3种局部结构的区分，因此条件独立性会很简单，相反因子分解则很复杂

全局马尔可夫性： $a (\in \boldsymbol x_A)，b(\in \boldsymbol x_B)$ 之间的每一条路径中至少一个结点c在 $\boldsymbol x_C$ 集合中，此时观测c组成的集合 $\boldsymbol c$ ，路径会被阻断，此时有 $(a\bot b)|\boldsymbol c$ （换句话说，只要观测一个节结点通过该节结点这一条路径就被阻断了，然而两个结点仍可以通过其它路径连通）
局部马尔可夫性：设a是我们关注的结点，则 $a\bot\{全集-a-\boldsymbol x_{a的邻接结点}\}|\boldsymbol x_{a的邻接结点}$ 。（换句话说，阻断了a的全部路径，a就和其余的结点独立了）
成对马尔可夫性： $x_i\bot x_j|\boldsymbol x_{-i-j}(i\ne j,且i,j不邻接)$ 。（这个性质是局部马尔可夫性的推论，任意两个不邻接的结点在其余结点给定的条件下是条件独立的）

这三个条件独立性是相互等价的，可以相互推出

2.1 表示

无向图在构建联合概率分布（因子分解）时比有向图复杂很多，并且难以表达

为了解决这一问题，先给出图中的一些定义：

团：一个关于结点的集合，集合内的任何两个结点之间有边连接（邻接）
最大团：团中无法再填加任何一个结点形成一个更大的团

所以我们要把因子分解定义在团之上：

$P(x)=\frac 1 Z\prod_{c\in \boldsymbol C}\Psi_c(\boldsymbol x_c),其中Z是归一化因子,\boldsymbol C是团的集合,x_c是团中随机变量集合,\Psi_c(x_c)是势函数必须为正$

$Z=\sum_xF(x)=\sum_{x_1}...\sum_{x_n}F(\boldsymbol x),其中F(\boldsymbol x)=\prod_{c\in \boldsymbol C}\Psi_c(\boldsymbol x_c)$ （类似于使联合分布表内各种联合概率之和为1/计算类似于softmax的归一化过程）

由于团的同样个数过多，因此在再把因子分解定义在最大团之上

$P(x)=\frac 1 {Z^*}\prod_{c\in \boldsymbol C^*}\Psi_c(\boldsymbol x_c),其中Z^*是归一化因子，\boldsymbol C^*是最大团的集合$

2.2.1 Hammersley-Clifford定理

Hammersley-Clifford定理保证基于最大团的因子分解与无向图的条件独立性等价（2.1节）

换句话说根据Hammersley Clifford定理，一个无向图模型的概率可以表示为定义在图上所有最大团上的势函数的乘积（证明Hammersley-Clifford定理）

有兴趣可以看一下😀就是证明： $马尔可夫随机场（马尔可夫网）\Leftrightarrow吉布斯分布$

参考上述博文给出定理的证明并将一些问题进行解释：

必要性： $因子分解\Rightarrow条件独立$ 等价于 ${吉布斯分布\Rightarrow马尔可夫随机场}$

证明目标：

马尔可夫网络（马尔科夫随机场(MRF)）的条件独立性是等价的，我们选择局部马尔可夫性作为目标：

设 $\boldsymbol G$ 是结点的全集（所有随机变量），

$x_i$ 是我们关注的结点（随机变量），

$\boldsymbol N_i$ 是 $x_i$ 邻接的结点（随机变量），

（注：集合的加减法表示加入或去除元素，可以集合与集合运算或集合与元素运算,，代替交集并集啥的 ）

$P(x_i|\boldsymbol G-x_i)=P(x_i|\boldsymbol N_i)$

证明过程：

设 $\boldsymbol D_i=\boldsymbol N_i+x_i$ 表示 $x_i$ 于其邻接的结点组成的集合,

$\boldsymbol C$ 表示最大团的集合

$P(x_i|\boldsymbol N_i)=\frac{P(x_i,\boldsymbol N_i)}{P(\boldsymbol N_i)}=\frac{P(\boldsymbol D_i)}{P(\boldsymbol N_i)}$

这里的 $P(\boldsymbol N_i),P(\boldsymbol D_i)$ ，就很像边缘概率分布（但还保留了一部分随机变量而非仅一个）

$P(\boldsymbol N_i)=\begin{cases}\int_{\boldsymbol N_i}P(\boldsymbol x)\cdot d\boldsymbol N_i,连续变量\\\sum_{\boldsymbol N_i}P(\boldsymbol x),离散变量\end{cases}$

（注：这里的积分号和累加号是很多个目标集合内结点（随机变量）的累加）

根据上述因子分解的表示

$P(x_i|\boldsymbol N_i)=\frac{\sum_{\boldsymbol G-D_i}\frac{1}{Z}\prod_{c\in\boldsymbol C}\Psi_c(x_c)}{\sum_{\boldsymbol G-N_i}\frac{1}{Z}\prod_{c\in\boldsymbol C}\Psi_c(x_c)}=\frac{\sum_{\boldsymbol G-D_i}\prod_{c\in\boldsymbol C}\Psi_c(x_c)}{\sum_{x_i}\sum_{\boldsymbol G-D_i}\prod_{c\in\boldsymbol C}\Psi_c(x_c)}$

设 $\boldsymbol C_i$ 为 $\boldsymbol C$ 中包含 $x_i$ 的最大团， $\boldsymbol R_i$ 为 $\boldsymbol C$ 中不包含 $x_i$ 的最大团， $\boldsymbol C=\boldsymbol C_i+R_i$

不难发现：由于最大团的定义， $\boldsymbol C_i$ 中的最大团必须是 $\boldsymbol N_i$ 的子集

$P(x_i|\boldsymbol N_i)=\frac{\sum_{\boldsymbol G-D_i}\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)\prod_{c\in\boldsymbol R_i}\Psi_c(x_c)}{\sum_{x_i}\sum_{\boldsymbol G-D_i}\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)\prod_{c\in\boldsymbol R_i}\Psi_c(x_c)}=\frac{\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)\sum_{\boldsymbol G-D_i}\prod_{c\in\boldsymbol R_i}\Psi_c(x_c)}{\sum_{x_i}\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)\sum_{\boldsymbol G-D_i}\prod_{c\in\boldsymbol R_i}\Psi_c(x_c)}$

其中 $\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)$ 可以提到求和（积分）号之外，就是因为 $\boldsymbol x_c$ 是 $\boldsymbol N_i$ 的子集（与 $\boldsymbol G-D_i$ 交集为空）

$P(x_i|\boldsymbol N_i)=\frac{\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)}{\sum_{x_i}\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)}=\frac{\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)}{\sum_{x_i}\prod_{c\in\boldsymbol C_i}\Psi_c(x_c)}\cdot\frac{\prod_{c\in\boldsymbol R_i}\Psi_c(x_c)}{\prod_{c\in\boldsymbol R_i}\Psi_c(x_c)}\\=\frac{\prod_{c\in \boldsymbol C}\Psi_c(x_c)}{\sum_{x_i}\prod_{c\in \boldsymbol C}\Psi_c(x_c)}=\frac{P(\boldsymbol x)}{P(\boldsymbol G-x_i)}\\=P(x_i|\boldsymbol G-x_i)$

充分性： $条件独立\Rightarrow因子分解$ 等价于 $马尔可夫随机场\Rightarrow吉布斯分布$

证明目标：无向图模型的联合概率 $P(\boldsymbol x)$ 可以表示为图上所有团的势函数乘积（或者说联合概率能分解为定义在团上的乘积，且团覆盖了无向图的所有顶点和边）

证明过程：

先假设如下势函数：对任意 $\boldsymbol s\subseteq \boldsymbol G$ ，有势函数

$f_s(x_s)=\prod_{\boldsymbol z \subseteq \boldsymbol s}P(\boldsymbol x_z,x_\boldsymbol {G-z}=0)^{-1^{|s|-|z|}}$

$\boldsymbol s$ 是 $\boldsymbol G$ 的任意子集， $\boldsymbol z$ 是 $\boldsymbol s$ 的任意子集

$P(\boldsymbol x_z,\boldsymbol {G-z}=0)$ 表示将处 $\boldsymbol z$ 包含的结点外分配默认值，记作0

$|s|,|z|$ 分别标识 $\boldsymbol s,\boldsymbol z$ 集合中的结点个数

很显然该势函数是非负的（概率非负）

只需证明如下2点，即可说明MRF的联合概率 $P(\boldsymbol x)$ 可表示为图上所有团的势函数乘积

（1） $\prod_{\boldsymbol{s\subseteq G}}f_s(\boldsymbol x_s)=P(x)$

（2）若 $\boldsymbol s$ 不是一个团，则 $f_s(\boldsymbol x_s)=1$

证（1）：

对任意子集 $\boldsymbol z \subset \boldsymbol G$ （注意此处不再仅仅限定 $\boldsymbol z \subseteq \boldsymbol s$ ，且 $\boldsymbol z\ne\boldsymbol G$ ）设与 $\boldsymbol z$ 相关的因子为 $\Delta=P(\boldsymbol x_z,x_{\boldsymbol G-z}=0)$

a) $|s|=|z|$ 的情况出现了一次，此时 $\Delta^{-1^0}=\Delta$

b) $|\boldsymbol s|-|\boldsymbol z|=1$ 的情况出现了 $C_{\boldsymbol|G|-\boldsymbol|z|}^1$ 次（组合数），此时 $\Delta^{-1^1}=\Delta^{-1}$

c) $|\boldsymbol s|-|\boldsymbol z|=2$ 的情况出现了 $C_{\boldsymbol|G|-\boldsymbol|z|}^2$ 次，此时 $\Delta^{-1^2}=\Delta$

...

n) $|\boldsymbol s|-|\boldsymbol z|=|\boldsymbol G|-|\boldsymbol z|$ 的情况出现了 $C_{\boldsymbol|G|-\boldsymbol|z|}^{|\boldsymbol G|-|\boldsymbol z|}$ 次（这是 $\boldsymbol s$ 的最大情况，即等于 $\boldsymbol G$ ），此时 $\Delta^{-1^{|\boldsymbol G|-|\boldsymbol z|}}$

依此类推，所有与 $\boldsymbol z$ 相关的 $\Delta$ 连乘（记作 $\Delta_{\boldsymbol z\subset \boldsymbol G}$ ）为：

$\Delta\cdot(\Delta^{-1})^{C_{\boldsymbol|G|-\boldsymbol|z|}^1}\cdot(\Delta)^{C_{\boldsymbol|G|-\boldsymbol|z|}^2}\cdot\cdot\cdot\cdot(\Delta^{-1^{|\boldsymbol G|-|\boldsymbol z|}})^{C_{\boldsymbol|G|-\boldsymbol|z|}^{|\boldsymbol G|-|\boldsymbol z|}}\\=\Delta^{(1-C_{\boldsymbol|G|-\boldsymbol|z|}^1+C_{\boldsymbol|G|-\boldsymbol|z|}^2+...+(-1)^{|G|-|z|}C_{\boldsymbol|G|-\boldsymbol|z|}^{\boldsymbol|G|-\boldsymbol|z|})}$

又有 $0=(1-1)^k=C_k^0-C_k^1+C_k^2+...+(-1)^kC_k^k\\=1-C_{\boldsymbol|G|-\boldsymbol|z|}^1+C_{\boldsymbol|G|-\boldsymbol|z|}^2+...+(-1)^{|G|-|z|}C_{\boldsymbol|G|-\boldsymbol|z|}^{\boldsymbol|G|-\boldsymbol|z|}$

故当 $|\boldsymbol G|\ne|\boldsymbol z|$ 时 $\Delta_{\boldsymbol z\subset \boldsymbol G}=\Delta^0=1$ ，此时不为1的仅剩 $|\boldsymbol G|=|\boldsymbol z|$ 的情况（记作 $\Delta_{\boldsymbol z= \boldsymbol G}$ ）

$\prod_{\boldsymbol{s\subseteq G}}f_s(\boldsymbol x_s)=\Delta_{\boldsymbol z\subset \boldsymbol G}\cdot\Delta_{\boldsymbol z=\boldsymbol G}=\Delta_{\boldsymbol z=\boldsymbol G}\\=P(\boldsymbol x_G,\boldsymbol x_{G-G})=P(x)$

证（2）：

该证明需要用到无向图的马尔可夫性。若 $\boldsymbol s$ 不是一个团，那么必存在两个结点 $a,b$ 没有边连接，故

$f_s(x_s)=\prod_{\boldsymbol z \subseteq \boldsymbol s}P(\boldsymbol x_z,x_\boldsymbol {G-z}=0)^{-1^{|s|-|z|}}\\=\prod_{w\subseteq s-\{a,b\}}[\frac{P(\boldsymbol x_w,\boldsymbol x_{G-w}=0)\cdot P(\boldsymbol x_{w+\{a,b\}},\boldsymbol x_{G-w-\{a,b\}})}{P(\boldsymbol x_{w+a}.\boldsymbol x_{G-w-a}=0)\cdot P(\boldsymbol x_{w+b}.\boldsymbol x_{G-w-b}=0)}]^{-1^*}$

不难发现这种拆分方法将 $\boldsymbol z= \boldsymbol w,\boldsymbol z=\boldsymbol w+\{a,b\},\boldsymbol z=\boldsymbol w+a,\boldsymbol z=\boldsymbol w+b$ 分开来考虑（ $\boldsymbol w$ 可以为空集），而由于接下来的证明与指数 $-1^*$ 无关，我们就不用在意其具体表示了

关于拆分后的形式： $P(\boldsymbol x_{w+\{a,b\}},\boldsymbol x_{G-w-\{a+b\}})$ 项之所以在分子，是因为 $-1^{|s|-|w|}=-1^{|s|-|w|+2}$ ，故该项在分子上，同理 $P(\boldsymbol x_{w+\{a\}},\boldsymbol x_{G-w-\{a\}})$ 和 $P(\boldsymbol x_{w+\{b\}},\boldsymbol x_{G-w-\{b\}})$ 项由于 $-(-1^{|s|-|w|})=-1^{|s|-|w|+1}$ 而为原始项的倒数而在分母上，所有这是正确的表达式

根据条件概率公式有：

$\frac{P(\boldsymbol x_w,\boldsymbol x_{G-w}=0)}{P(\boldsymbol x_{w+a},\boldsymbol x_{G-w-a}=0)}=\frac{P(x_a=0|x_b=0,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})\cdot P(x_b=0,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}{P(x_a|x_b=0,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})\cdot P(x_b=0,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}=\frac{P(x_a=0|x_b=0,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}{P(x_a|x_b=0,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}$

由于 $x_a和x_b$ 在给定其他结点的条件下是条件独立的（成对马尔可夫性），故上式右边等价于

$\frac{P(\boldsymbol x_w,\boldsymbol x_{G-w}=0)}{P(\boldsymbol x_{w+a},\boldsymbol x_{G-w-a}=0)}=\frac{P(x_a=0|x_b,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}{P(x_a|x_b,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}=\frac{P(x_a=0|x_b,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}{P(x_a|x_b,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})}\cdot P(x_b,\boldsymbol x_w,\boldsymbol x_{G-w-\{a,b\}})\\=\frac{P(\boldsymbol x_{w+b},\boldsymbol x_{G-w-b})}{P(\boldsymbol x_{w+\{a,b\}},\boldsymbol x_{G-w-\{a,b\}})}$

将其代入上面的式子会发现:

$\frac{P(\boldsymbol x_w,\boldsymbol x_{G-w}=0)\cdot P(\boldsymbol x_{w+\{a,b\}},\boldsymbol x_{G-w-\{a,b\}})}{P(\boldsymbol x_{w+a}.\boldsymbol x_{G-w-a}=0)\cdot P(\boldsymbol x_{w+b}.\boldsymbol x_{G-w-b}=0)}\equiv1$

即可完成证明

由于最大团的势函数可有团的势函数表示，故在最大团上该结论也成立

2.2.2 势函数与吉布斯分布

为保证势函数为正，一般使用 $\Psi_c(\boldsymbol x_c)=e^{-E(\boldsymbol x_c)},E(x)称为能量函数$

这样构成的联合概率 $P(\boldsymbol x)$ 是吉布斯分布（Gibbs Distribution）

$P(x)=\frac 1 {Z^*} \prod_{c\in \boldsymbol C^*}\Psi_c(\boldsymbol x_c)\\=\frac 1 {Z^*} \prod_{c\in \boldsymbol C^*}exp\{-E(\boldsymbol x_c)\}\\=\frac 1 {Z^*}exp\{\sum_{c\in \boldsymbol C^*}-E(\boldsymbol x_c)\}$

不难发现：Gibbs Distribution就是一种指数族分布，这又和最大熵产生了联系

结论：马尔可夫随机场（马尔可夫网）等价于吉布斯分布（都在Hammersley-Clifford定理的证明中有体现）

Reference

[1] 【机器学习】【白板推导系列】

[2] Hammersley-Clifford定理证明

转载请说明出处。