条件随机场CRF

简介

在命名实体识别(后简称NER)中,迄今绝大多数模型都使用神经网络和条件随机场结合的方法实现。所以,需要稍微了解一下CRF的原理。

NER是自然语言处理中一个非常基础的任务,简单的说,就是识别句中的成份。比如"小明去学校",其中“小明”是人名,“去”是动词,“学校”是地点。如果把字当作处理单元,“学”字是动词还是地点,不仅取决于该字的意思,还取决于它的上下文。

CRF可用于解决序列问题(前后状态存在相关性),比如根据第i-1个字来判断第i个字所充当的成份。当CRF与神经网络共同工作时,神经网络负责提取词义,CRF将词义与上下文结合,以实现更准确地判断。

原理

这里涉及很多概念,比如最大团、马尔可夫性、马尔可夫链等等,本文不做展开,以免过长、过于复杂。

直奔主题,CRF最大的特点是它使用了特征函数。可以把特征函数想象成对输入x提取多个特征,每个特征函数提取一个特征。
\sum_i^T\sum_k^M\lambda_kf_k(x,y_{i-1},y_i,i)
序列中共有T个时间步(NER句中有T个字),用i遍历每一时间步(每个字),共有M个特征函数(提取M个特征),用k遍历每个特征函数,特征函数用f表示,其权重用λ表示,不同特征函数的权重各不相同。特征函数是事先定义好的,权重是训练中学出来的。

特征函数的输入包含观测序列x(NER里的句子),状态序列y(成份)的第i-1和第i个位置,以及具体位置的索引i。

上面公式也常常表示成:
\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)
它把前式中的特征函数f拆成了两部分,第一部分是当前项与上下文的关系,第二部分是具体词x与词的成份y之间的关系。两部分有各自的特征函数及权重。

我们看到CRF写成啥样的都有,但无论用什么字符表示,拆成一部分或两部分,其原理都是一样的。

最常见的CRF公式如下,它用于计算:文本序列x的条件下出现成份序列y的概率。
P(y|x)=\frac{1}{Z(x)}exp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)\right)
其中,Z(x)用于归一化:
Z(x)=\sum_yexp\left(\sum_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum_{i,l}\mu_ls_l(y_i,x,i)\right)
公式也被简化成:
P_w(y|x)=\frac{exp(w \cdot F(y,x))}{Z_w(x)}
其中的w是训练求得的模型参数。这么看,就像是一个求参数w的回归问题。

隐马尔可夫模型与条件随机场

隐马尔可夫模型(HMM)与条件随机场模型(CRF)常放在一起比较,这是由于它们实现的功能基本一致。

HMM 公式如下:
p(y,x) = \prod_{t=1}^Tp(y_t|y_{t-1})p(x_t|y_t)
对比公式可以看出:

  • 相同:二项者考虑了前项y-1对后项y的影响,以及x对y的影响。
  • 差异:HMM求联合概率p(y,x),CRF求条件概率p(y|x)。
  • 差异:HMM仅考虑x->y,yi-1->yi的转移关系。
  • 差异:CRF引入了事先设定好的特征函数,计算特征函数时还加入了整个x,考虑到了整句上下文对该点成份的影响。

参考

如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
NLP --- 条件随机场CRF(预测算法详解)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容