《数学之美》之隐含马尔科夫模型

本章涉及到的概率论的知识较多。前方高能。

前方高能。

前方高能。。。。

马尔科夫模型在前两章统计语言模型中已经有介绍了,这里不再赘述。

在通信中,如何根据接收端的观测信号来推测信号源发送的信息呢?这就需要从所有的源信息中找到最可能产生观测信号的那一个信号。用概率论的语言,就是在已知接收到的信号o的情况下,求得令条件概率P(s|o)达到最大值的那个信息串s。

先别晕。因为后面会更晕。

根据贝叶斯公式转换一下,

P(s|o)=P(o|s)*P(s)/P(o)

即为求解P(s|o)*P(s)/P(o)最大值的过程。

这时候就会发现一个问题,求解这样一个方程,是个复杂度极高的事情。隐含马尔科夫模型就要登场了。

隐含马尔科夫模型是马尔科夫链的一个扩展:假设任一时刻t的状态st是不可见的。这样就没法通过s序列去推测转移概率等参数。(为什么要这样假设?因为对于骰子的输出163245来说,我们不仅仅有一串可见状态链,还有一串隐含状态链。可见状态链是确定的概率,如6个面骰子点数的概率;而隐含状态链是不确定概率,如选择的骰子是6个面的还是4个面)

那这样还怎么玩?别急。

隐含马尔科夫模型在每个时刻t会输出一个符号ot,而且ot跟且仅跟st相关。这是一个独立输出假设。

基于马尔科夫假设和独立输出假设,我们就可以计算出某个特定的状态序列s产生出输出符号序列o的概率。

要找到这个概率的最大值,可以使用维特比算法。这是个解码算法。

维特比算法说白了就是动态规划实现最短路径,只要知道“动态规划可以降低复杂度”这一点就能轻松理解维特比算法。“利用动态规划,可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆网络的有向图(Lattice )的最短路径问题而提出的。 它之所以重要,是因为凡是使用隐含马尔可夫模型描述的问题都可以用它来解码。”

维特比算法的精髓就是,既然知道到第i列所有节点Xi{j=123…}的最短路径,那么到第i+1列节点的最短路径就等于到第i列j个节点的最短路径+第i列j个节点到第i+1列各个节点的距离的最小值。复杂度骤减为O(ND2),远远小于穷举O(DN)。

总的来说,

围绕着隐含马尔科夫模型有三个基本问题:

1. 给定一个模型,如何计算某个特定的输出序列的概率;

2. 给定一个模型和某个特定的输出序列,如何找打最可能产生这个输出的状态序列;

3. 给定足够量的观测数据,如何估计隐含马尔科夫模型的参数。

解:

第一个问题,对应的算法是Forward-Backward算法。

前向-后向算法首先对于隐马尔科夫模型的参数进行一个初始的估计(这很可能是完全错误的),然后通过对于给定的数据评估这些参数的的价值并减少它们所引起的错误来重新修订这些HMM参数(即隐含马尔科夫参数)。从这个意义上讲,它是以一种梯度下降的形式寻找一种错误测度的最小值。

之所以称其为前向-后向算法,主要是因为对于网格中的每一个状态,它既计算到达此状态的“前向”概率(给定当前模型的近似估计),又计算生成此模型最终状态的“后向”概率(给定当前模型的近似估计)。 这些都可以通过利用递归进行有利地计算,就像我们已经看到的。可以通过利用近似的HMM模型参数来提高这些中间概率进行调整,而这些调整又形成了前向-后向算法迭代的基础。

第二个问题,对应的算法是维特比算法(解码算法),不再赘述。

第三个问题,是模型训练的问题。无监督模型对应的算法是Baum-Welch Algorithm(训练算法)。

Baum-Welch Algorithm的基本思想是,随便找到一组能够产生输出序列o的模型参数,那就可以算出这个模型产生输出序列o的概率和这个模型产生o的所有可能的路径以及这些路径的概率,因此可以将这些视为“标注的训练数据”,根据最优解,计算出一组新的模型参数,从而不断迭代,直到使得输出概率达到最大化。这个过程称为期望最大化,也就是EM过程。

解析完毕。

晕了吧?

要是已经晕了也没关系。

不就是分词嘛,成熟工具多得是。我们又不专业搞算法研究,这种“轮子”的制造技术,知道个大概就好。把“车”开好才是王道。

呜~~~~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355

推荐阅读更多精彩内容