NLP预训练语言模型(一):马尔科夫链与HMM的三个基本问题

隐马尔科夫模型(HMM)是一种有向图模型,是结构最简单的动态贝叶斯网,是可用于标注问题的统计学习模型,描述由隐藏的马尔科夫链随机生成观测序列的过程,属于“生成式模型”。本文介绍HMM的基本概念和三个基本问题的算法推导。

1、HMM是什么

如图所示是HMM的基本结构。它有两组变量,上面是不可观测的状态变量,表示某一时刻的系统状态;下面是可以被观测到的观测变量,表示某一时刻的观测值。一般地,系统状态变量是离散的,观测变量是离散或连续的,这里仅讨论离散的情况。


HMM的基本结构

图中的箭头表示了隐马尔科夫模型的依赖关系,也是马尔科夫链的基本特点:系统下一时刻的状态仅与前一时刻的状态有关,系统当前时刻的观测值仅与当前时刻的状态有关。这是研究HMM问题的大前提。基于这种依赖关系,可以得到所有变量的联合概率分布:

P(X,Y)=P(x_1,y_1,...,x_n,y_n)=P(y_1)P(x_1|y_1)\prod_{i=2}^n P(y_i|y_{i-1})P(x_i|y_i)\\

设状态集合S=(s_1,s_2,...,s_N),所有可观测变量的集合X=(o_1,o_2,...,o_M)。要确定一个HMM结构,需要以下关键的三组参数,也称为HMM的三要素:

状态转移概率:在图中表示为y_i之间的转换概率,记为矩阵A=[a_{ij}]_{N×N},其中

a_{ij}=P(y_{t+1}=s_j|y_t=s_i)\\

输出观测概率:在图中表示为某一时刻纵向的推测概率,即根据当前状态得到各个观测值的概率,记为矩阵B=[b_{ij}]_{N×M},其中

b_{ij}=P(x_t=o_j|y_t=s_i)\\

初始状态概率:表示初始状态即y_1的各种取值出现的概率,记为\pi =(\pi_1,\pi_2,...,\pi_N),其中

\pi_i=P(y_1=s_i)\\

如果已知了状态空间、观测空间、三组参数,就可以确定一个HMM模型了。首先根据初始状态概率\pi确定y_1,再根据B向下确定当前时刻观测值,根据A向右确定转移状态,一直反复进行直到最后。

在HMM中,人们关心三个问题,这三个问题分别代表三种应用的角度,对应若干解决该问题的算法:

概率计算问题:给定模型的参数\lambda =(A,B,\pi)和某一个观测到的序列O=(o_1,o_2,...,o_T),计算该观测序列出现的概率P(O|\lambda )。涉及到前向算法后向算法

学习问题:给定观测序列O=(o_1,o_2,...,o_T),估计模型参数\lambda =(A,B,\pi),使得产生该观测序列的概率P(O|\lambda )最大。涉及到监督学习算法EM算法

预测问题(解码问题):给定模型参数\lambda =(A,B,\pi)和观测序列O=(o_1,o_2,...,o_T),求最匹配的状态序列I=(i_1,i_2,...,i_T),即最大化P(I|O)。涉及到近似算法维特比算法

二、概率计算问题

2.1 前向算法

定义前向概率:给定HMM模型的参数\lambda ,定义从开始到时刻t的观测序列为o_1,o_2,...,o_t,并且此时状态为q_i的概率为前向概率,记为:

\alpha _i(i)=P(o_1,o_2,...,o_t,i_t=q_i|\lambda)\\

计算方法如下:

① 计算初值:

\alpha _1(i)=\pi_ib_i(o_1), i=1,2,...,N\\

② 递推公式:

\alpha _{t+1}(i)=[\sum_{j=1}^N \alpha _t(j)a_{ji}]*b_i(o_{t+1}),\\其中i=1,2,...,N,t=1,2,...,T-1\\

③ 终止:

P(O|\lambda )=\sum_{i=1}^N \alpha _T(i)\\

解释一下,第一步初始化前向概率,实际上根据定义求的是联合概率,第二步递推公式中,中括号内计算了前一时刻所有可能的状态转移为当前时刻状态的概率和。实际上前向概率算法是计算了状态转移过程中所有的可能路径的前向概率并求和,其计算量是O(N^2T)

2.2 后向算法

定义后向概率:给定HMM模型的参数\lambda ,定义时刻t状态为q_i的条件下,从下一时刻开始到最后时刻的观测序列为o_{t+1},o_{t+2},...,o_T的概率为后向概率,记为

\beta _t(i)=P(o_{t+1},o_{t+2},...,o_T|i_t=q_i,\lambda )\\

计算方法如下:

① 初始化规定:

\beta _T(i)=1,i=1,2,...,N\\

② 递推公式,对t=T-1,T-2,...,1有:

\beta _t(i)=\sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta _{t+1}(j),i=1,2,...,N\\

③ 终止:

P(O|\lambda )=\sum_{i=1}^N \pi_ib_i(o_1)\beta _1(i)\\

解释一下,第一步初始化所有的后向概率为1是规定,第二步与前向概率的递归思路相似,将后一时刻所有可能的状态乘以状态转换概率a_{ij}和输出观测概率b_{ij}并累加,第三步也是如此,记得用\pi _i代替a_{ij}

三、学习问题

学习问题是给定观测序列,求参数的估计,即参数值是多少的时候该观测序列出现的概率最大。

3.1 监督学习方法

假设给定了S个长度相同的观测序列和对应的状态序列,即(O_1,I_1),(O_2,I_2),...,(O_S,I_S),那么利用极大似然法估计参数,也就是根据频数估计参数:

\hat{a} _{ij}=\frac{A_{ij}}{\sum_{j=1}^N A_{ij}} \\\hat{b} _{ij}=\frac{B_{ij}}{\sum_{j=1}^N B_{ij}} \\

\hat{\pi} _i是根据不同初始状态出现的频率求得的相应概率。

这种方法需要大量的训练数据,代价较高,所以更实际的方案是非监督学习方法--EM算法。

3.2 EM算法

假设给定的数据只有S个长度相同的观测序列(O_1,O_2,...,O_S),对应的状态序列不可见并记为I,那么HMM是一个含有隐变量的概率模型:

P(O|\lambda )=\sum_{I} P(O|I,\lambda )P(I|\lambda )\\

它的参数学习由EM算法实现。EM算法的推导过程很复杂,涉及到很多数学知识,这里直接用EM算法的模板来推导。步骤如下:

① 确定完全数据的对数似然函数。完全数据就是把观测数据和状态变量拼接(concat)起来,其似然函数表示为logP(O,I|\lambda )

② EM算法的E步。首先写出Q函数,已知Q函数的定义

Q(\lambda ,\bar{\lambda } )=E_I[logP(O,I|\lambda )|O,\bar{\lambda } ]\\

写出此问题的Q函数:

Q(\lambda ,\bar{\lambda } )=\sum_{I}logP(O,I|\lambda )P(O,I| \bar{\lambda } )\\

其中,\bar{\lambda } 是当前的参数估计值,\lambda 是要极大化的参数。观察到对数函数的第一项是可以拆分细化的,先把它拆开:

Q(\lambda ,\bar{\lambda } )=\sum_{I}log\pi _{i_1}P(O,I| \bar{\lambda } )+\sum_{I}(\sum_{t=1}^{T-1}log a_{i_ti_{t+1}} )P(O,I| \bar{\lambda } )+\sum_{I}(\sum_{t=1}^Tlog b_{i_t}(o_t) )P(O,I| \bar{\lambda } )\\

③ EM算法的M步。Q函数由三项组成,由于三个参数分别在三个加式中,故三个参数的估计分别求出。分别找到相应的约束条件使用拉格朗日数乘法,对拉格朗日函数求偏导,解得:

\pi_i=\frac{P(O,i_1=i|\bar{\lambda }) }{P(O|\bar{\lambda })} \\a_{ij}=\frac{\sum_{t=1}^{T-1} P(O,i_t=i,i_{t+1}=j|\bar{\lambda })}{\sum_{t=1}^{T-1} P(O,i_t=i,|\bar{\lambda })}  \\b_j(k)=\frac{\sum_{t=1}^T P(O,i_t=j|\bar{\lambda }) I (o_t=v_k)}{\sum_{t=1}^T P(O,i_t=j|\bar{\lambda })}

四、预测问题

预测问题是已知模型参数和观测序列求最佳匹配的状态序列。

4.1 近似算法

近似算法的思想是,考虑每个时刻最有可能出现的状态,这些状态合起来就是要求的状态序列。求解某一时刻的最有可能出现的状态时,用到了该时刻的前向概率和后向概率。在时刻t处于状态q_i的概率为:

\gamma _t(i)=\frac{\alpha _t(i)\beta _t(i)}{\sum_{j=1}^N \alpha _t(j)\beta _t(j)} \\

在该时刻最有可能的状态是:

i_t^*=arg\max_{i\in  [1,N]} [\gamma _t(i)]\\

从而计算出所有时刻的最有可能的状态。

这种算法的优点是计算简单,缺点是没有考虑相邻状态之间的转换概率,比如当某两个相邻时刻的转换概率为0时,近似算法得到的时间序列实际上是不存在的。

4.2 维特比算法

维特比算法使用的动态规划的原理求最优路径问题,路径即状态序列。动态规划的原理是指,如果在时刻t选择了状态i,那么前t-1个时刻一定仅存在一个可计算的概率最大的路径,当t=T时,这条路径就是模型的最优路径。(leetcode的最优路径题)

先引入两个变量。定义在时刻t且状态为i的所有路径中的概率最大值为:

\delta _t(i)=\max_{i_1,i_2,...,i_{t-1}}P(i_t=i,i_{t-1},...,i_1,o_t,...,o_1|\lambda ),i\in [1,N]\\

其递推公式为:

\delta _{t+1}(i)=\max_{j\in [1,N]}[\delta _t(j)a_{ji}]b_i(o_{t+1}),i\in [1,N]\\

定义时刻t且状态为i的所有路径中概率最大的路径的前一时刻(t-1时刻)的节点为:

\Psi _t(i)=arg\max_{j\in [1,N]}[\delta _{t-1}(j)a_{ji}],i\in [1,N]\\

\Psi _t(i)的引入是为了记录最佳路径的节点,产生最佳状态序列。维特比算法步骤如下:

① 初始化:

\delta _1(i)=\pi_ib_i(o_1)\\\Psi _t(i)=0,i\in [1,N]

② 递推公式,从时刻2开始:

\delta _{t}(i)=\max_{j\in [1,N]}[\delta _{t-1}(j)a_{ji}]b_i(o_{t+1}),\\\Psi _t(i)=arg\max_{j\in [1,N]}[\delta _{t-1}(j)a_{ji}],i\in [1,N]\\

③ 终点:

P^*=\max_{i\in [1,N]}\delta _T(i)\\i_T^*=arg\max_{i\in [1,N]}\delta _T(i)

④ 最优路径回溯,从倒数第二个时刻开始向前回溯:

i_t^*=\Psi _{t+1}(i_{t+1}^*)\\

求得最优路径。


参考:

《机器学习》,周志华,著

《统计学习方法》,李航,著

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355