HMM及CRF

image

概率图模型

概率图模型（probabilistic graphical models）在概率模型的基础上，使用了基于图的方法来表示概率分布（或者概率密度、密度函数）。

在概率图模型的表达中，数据(样本)由公式 $G=(V,E)$ 建模表示：

$V$ : 结点, 表示变量, 具体地，用 $Y = (y_{1}, {\cdots}, y_{n} )$ 为随机变量建模， $P(V)$ 为这些随机变量的联合概率分布；
$E$ : 边, 表示相应变量之间的概率关系

根据图模型（graphical models）的边是否有向，概率图模型通常被划分成有向概率图模型和无向概率图模型。

有向概率图模型

image

求解联合概率

$P(x_{1}, {\cdots}, x_{5} )=P(x_{1})·P(x_{2}|x_{1} )·P(x_{3}|x_{2} )·P(x_{4}|x_{2} )·P(x_{5}|x_{3},x_{4} )$

写成通用形式即

$P(x_{1}, {\cdots}, x_{n} )=\prod_{i=0}P(x_{i} | \pi(x_{i}))$

无向概率图模型

如果联合概率分布 $P(V)$ 满足成对、局部或全局马尔可夫性，就称此联合概率分布为概率无向图模型或马尔可夫随机场(MRF)

成对马尔可夫性

设无向图 $G$ 中的任意两个没有边连接的节点 $u$ 、 $v$ ，其他所有节点为 $O$ ，成对马尔可夫性指：给定 $Y_{O}$ 的条件下， $Y_{u}$ 和 $Y_{v}$ 条件独立

image

$P(Y_{u},Y_{v}|Y_{O})=P(Y_{u}|Y_{O})P(Y_{v}|Y_{O})$

局部马尔可夫性

设无向图 $G$ 的任一节点 $v$ ， $W$ 是与 $v$ 有边相连的所有节点， $O$ 是 $v$ 、 $W$ 外的其他所有节点，局部马尔可夫性指：给定 $Y_{W}$ 的条件下， $Y_{v}$ 和 $Y_{O}$ 条件独立

image

$P(Y_{v},Y_{O}|Y_{W})=P(Y_{v}|Y_{W})P(Y_{O}|Y_{W})$

当 $P(Y_{O}|Y_{W})>0$ 时，等价于

$P(Y_{v}|Y_{W})=P(Y_{v}|Y_{W},Y_{O})$

如果把等式两边的条件里的 $Y_{W}$ 遮住， $P(Y_{v})=P(Y_{v}|Y_{O})$ 这个式子表示 $Y_{v}$ 和 $Y_{O}$ 独立，进而可以理解这个等式为给定条件 YW 下的独立。

全局马尔可夫性

设节点集合 $A$ 、 $B$ 是在无向图 $G$ 中被节点集合 $C$ 分开的任意节点集合，全局马尔可夫性指：给定 $Y_{C}$ 的条件下， $Y_{A}$ 和 $Y_{B}$ 条件独立

image

$P(Y_{A},Y_{B}|Y_{C})=P(Y_{A}|Y_{C})P(Y_{B}|Y_{C})$

成对、局部或全局马尔科夫性，大白话就是说每一个节点的分布只和有边相连的节点有关系。

image

不同于有向图模型，无向图模型的无向性很难确保每个节点在给定它的邻节点的条件下的条件概率和以图中其他节点为条件的条件概率一致。由于这个原因，无向图模型的联合概率并不是用条件概率参数化表示的，而是定义为由一组条件独立的局部函数的乘积形式。因子分解就是说将无向图所描述的联合概率分布表达为若干个子联合概率的乘积，从而便于模型的学习和计算。

image

$P(Y)=\frac{1}{Z(x)} \prod_{c}\psi_{c}(Y_{c} )$

其中 $Z(x) = \sum_{Y} \prod_{c}\psi_{c}(Y_{c} )$ , 归一化是为了让结果算作概率。

所以像上面的无向图：

$P(Y)=\frac{1}{Z(x)} ( \psi_{1}(X_{1}, X_{3}, X_{4} ) · \psi_{2}(X_{2}, X_{3}, X_{4} ) )$

其中， $\psi_{c}(Y_{c} )$ 是一个最大团 $C$ 上随机变量们的联合概率，一般取指数函数的：

$\psi_{c}(Y_{c} ) = e^{-E(Y_{c})} =e^{\sum_{k}\lambda_{k}f_{k}(c,y|c,x)}$

团：无向图G中任何两个结点均有边连接的节点子集成为团。
最大团：若C是无向图G的一个团，并且不能再加进任何一个G的节点使其成为一个更大的团，则称此C为最大团。

那么概率无向图的联合概率分布可以在因子分解下表示为：

$P(Y)=\frac{1}{Z(x)} \prod_{c}\psi_{c}(Y_{c} ) = \frac{1}{Z(x)} \prod_{c} e^{\sum_{k}\lambda_{k}f_{k}(c,y|c,x)} = \frac{1}{Z(x)} e^{\sum_{c}\sum_{k}\lambda_{k}f_{k}(y_{i},y_{i-1},x,i)}$

名词解释

马尔可夫链

举个栗子，一只被切除了大脑的白鼠被随机丢进如下洞穴, 小白鼠在洞穴间随机蹿动

image

窜动的路线就构成一个马尔科夫链。因为这只白鼠已没有了记忆，瞬间产生的念头决定了它从一个洞穴蹿到另一个洞穴；当其所在位置确定时，它下一步蹿往何处与它以往经过的路径无关。

image

这种在已知“现在”的条件下，“未来”与“过去”彼此独立的特性就被称为马尔科夫性，具有这种性质的随机过程就叫做马尔科夫过程，其最原始的模型就是马尔科夫链。

隐马尔可夫模型(HMM)

假设观察者距离洞穴很远, 看不见老鼠窜动的轨迹, 但是每个洞穴中都装有不同颜色的灯, 当老鼠进入到该洞穴时会触发开关将灯点亮, 观察者可以看清被点亮的灯的颜色

image

假设老鼠窜动的轨迹如下

image

那么观察者看到的灯亮的顺序则为

image

一个隐马尔可夫模型则可以如下表示

image

小白鼠在洞穴(状态)之间的转移存在转移概率, 可由矩阵表示:

$A= \left\{ \begin{matrix} & A & B & C & D & E & F & G & H & I \\ A & 0.2 & 0.4 & 0.4 & 0 & 0 & 0 & 0 & 0 & 0 \\ B & 0.3 & 0.1 & 0.3 & 0 & 0.3 & 0 & 0 & 0 & 0 \\ C & 0 & 0.3 & 0.4 & 0 & 0 & 0.3 & 0 & 0 & 0 \\ D & 0.33 & 0 & 0 & 0 & 0.33 & 0 & 0.33 & 0 & 0 \\ E & 0 & 0.2 & 0 & 0.2 & 0.2 & 0.2 & 0 & 0.2 & 0 \\ F & 0 & 0 & 0.33 & 0 & 0.33 & 0 & 0 & 0 & 0.33 \\ G & 0 & 0 & 0 & 0.5 & 0 & 0 & 0 & 0.5 & 0 \\ H & 0 & 0 & 0 & 0 & 0.33 & 0 & 0.33 & 0 & 0.33 \\ I & 0 & 0 & 0 & 0 & 0 & 0.33 & 0 & 0.33 & 0.33 \end{matrix} \right\}$
这个矩阵称为状态转移概率分布矩阵, 如小白鼠从房间F窜到房间C的概率为0.33

假如实验中开关发生故障, 每次进入洞穴后点亮的灯的颜色不再确定, 而是每种颜色的灯亮存在概率, 如下矩阵:

$B= \left\{ \begin{matrix} & 红 & 绿 & 蓝 \\ A & 0.7 & 0.2 & 0.1 \\ B & 0.15 & 0.7 & 0.15 \\ C & 0 & 0.2 & 0.8 \\ D & 0 & 1 & 0 \\ E & 0.7 & 0.2 & 0.1 \\ F & 0.15 & 0.7 & 0.15 \\ G & 0.8 & 0.1 & 0.1 \\ H & 0.6 & 0.3 & 0.1 \\ I & 0.2 & 0.2 & 0.6 \end{matrix} \right\}$

这个矩阵称为观测状态概率矩阵, 如小白鼠进到F洞穴, 红灯亮的概率为0.15, 绿灯亮的概率为0.7, 蓝灯亮的概率为0.15

小白鼠最初被随机丢进每个洞穴的初始概率为 $π=(0.1, 0.1, 0.1, 0.2, 0, 0.12, 0.3, 0.08, 0)$

隐马尔科夫模型由初始状态概率向量 $π$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $π$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔科夫模型λ可以由三元符号表示，即： $λ=(A,B,π)$ 。 $A$ , $B$ , $π$ 称为隐马尔科夫模型的三要素。

隐马尔可夫模型属于有向图模型, 需要计算的概率是“观测序列(输入)和状态序列(输出)的联合概率”，即P(状态序列, 观测序列), 然后再根据贝叶斯公式求解出P(状态序列|观测序列), 构建它们的联合概率分布P(Y,X)的模型属于生成式模型

条件随机场(CRF)

显然在现实生活当中, 一个状态的发生很可能不仅仅依赖于前一个状态, 而是依赖于前后多个状态。拿词性标注来说, 判断一个词是否为动词, 我们可能需要考虑这个词的前一个词(上一个状态)是否为形容词, 这个词后边(下一个状态)是否为名词, 这个词(本身)是否以ing或者ly结尾等等。像这种场景我们便可以用条件随机场来解决

此前我们介绍了马尔科夫随机场(MRF), 如果给定的MRF中每个随机变量 $y_{i}$ 下面还有观察值 $x_{i}$ ，那么我们的目标就是要确定给定观察集合 $X$ 下的MRF分布，也就是条件分布，而这种条件分布就是条件随机场。

简单的说，条件随机场(CRF)类似于MRF，只不过CRF比MRF多了一个观察集合，或者说，CRF本质上就是给定了观察值集合的MRF。

这里介绍的CRF指线性链条件随机场, 即观测序列 $X$ 与状态序列 $Y$ 有相同的图结构如下:

image

定义

设 $X=(X_{1},X_{2}，...,X_{n})$ , $Y=(Y_{1},Y_{2},...,Y_{n})$ 均为线性链表示的随机变量序列，在给定随机变量序列 $X$ 的情况下，随机变量 $Y$ 的条件概率分布 $P(Y|X)$ 构成条件随机场，即满足马尔科性：

$P(Yi|X,Y_{1},...,Y_{i−1},Y_{i+1},...,Y_{n})=P(Y_{i}|X,Y_{i−1},Y_{i+1}), i=1,...,n$

线性链条件随机场的特征函数

$P(Y=y|x)=\frac{1}{Z(x)}\exp\biggl(\sum_k\lambda_k\sum_it_k(y_{i-1},y_i,x,i)+\sum_l\mu_l\sum_is_l(y_i,x,i)\biggr)$

$Z(x)=\sum_y\exp\biggl(\sum_k\lambda_k\sum_it_k(y_{i-1},y_i,x,i)+\sum_l\mu_l\sum_is_l(y_i,x,i)\biggr)$

$Z(x)$ 作为规范化因子，是对 y 的所有可能取值求和。

其中:
$t_k(y_{i-1},y_i,x,i)$ : 是定义在边上的转移特征函数（transition），依赖于当前位置 $i$ 和前一位置 $i-1$ ；对应的权值为 $λ_{k}$
$s_l(y_i,x,i)$ : 是定义在节点上的状态特征函数（state），依赖于当前位置 $i$ ；对应的权值为 $μ_{l}$

一般来说，特征函数的取值为 1 或 0 ，当满足规定好的特征条件时取值为 1 ，否则为 0 。

词性标注例子

image

如果 $y_{i−1}=形容词$ , 且 $y_{i}=名词$ , 则转移特征函数 $t(y_{i-1},y_i,x,i)=1$ , 否则为 $0$ 。如果该特征函数有一个较大的正权重 $\lambda_k$ ，就表明倾向于认为形容词后面跟着名词。
如果 $y_{i−1}=介词$ , 且 $y_{i}=介词$ , 则转移特征函数 $t(y_{i-1},y_i,x,i)=1$ , 否则为 $0$ 。如果该特征函数有一个较大的负权重 $\lambda_k$ ，就表明倾向于认为介词后面不会再跟介词。
如果 $y_{i}=副词$ 且 $x_{i}$ 以“-ly”结尾, 则状态特征函数 $s(y_i,x,i)=1$ , 否则为 $0$ 。如果该特征函数有一个较大的正权重，就表明倾向于将 “-ly” 结尾的单词标注为副词。
如果 $i=1$ $y_{i}=动词$ 且 $x$ 以“?”结尾, 则状态特征函数 $s(y_i,x,i)=1$ , 否则为 $0$ 。如果该特征函数有一个较大的正权重，就表明倾向于将问句的首词标注为动词。如“Is it right?”