关于命名实体识别算法概论

对于命名实体识别,我们一般是以下两种方法:


总体.jpg

一般来说,基于规则的方法识别性能要优于基于统计的方法约2%左右,这是由于手写规则捕获命名实体重要特征的能力比当前的机器学习方法强。但是,基于规则的系统存在着难以克服的缺点:基于规则的系统开发非常昂贵,并且系统性能的好坏完全依赖于设计者的语言知识;虽然系统的准确率很高,但是规则的覆盖度却很差,基于规则的系统缺乏适应性,不便于移植。
基于统计的方法主要是利用标注语料库来训练某个字作为命名实体组成部分的概率,并用它们来计算某个候选字段作为命名实体的概率值,若大于某一闭值,则识别为命名实体。与规则方法相比,基于统计方法的系统具有更好的健壮性和灵活性,且实现的代价较小,便于移植。目前,越来越多的统计语言模型被用于命名实体识别,包括隐马尔科夫模型、最大熵模型、支持向量机和决策树等。基于统计方法的优点在于,对语言的依赖性小,可移植性好。接下来我们介绍两种目前常用的基于统计模型的算法。
1.HMM


HMM.jpg

什么是HMM?先由一个马尔可夫链随机生成一个不可观测的状态随机序列,再由产生的状态生成一个可观测的随机序列。一般的,我们将不可观测的随机序列为状态序列(state sequence),由状态产生的可观测序列为观测序列(observation sequence)。由于这一随机过程中,状态序列不可见,且由马尔可夫过程产生,正是隐马尔可夫模型中“隐”的含义所在。 具体到命名实体识别任务中,对任意输入字符串及每个实体类别的出现都看作一个随机过程。

然而HMM仅仅利用词汇本身特性,参数被训练来最大化拟合训练语料的联合概率。为了定义一个观察值和标注值的联合概率,产生式模型必须列出所有可能的观察序列。在实际情况中,列出观察序列的多类交互的特征或者长距离约束是不现实的。其次,在产生式模型中比较难结合多种丰富重叠的特征。再次,产生式模型必须在观察序列中设置非常严格的假设条件,即观测值出现的概率只和当前的状态有关,而与其它的信息无关。
因此我们提出了CRF。

2.CRF


CRF.jpg

什么事CRF?条件随机场则是在给定随机变量 𝑋 的条件下,随机变量 𝑌 的马尔可夫随机场。马儿可夫随机场指的是满足以下三个特性:
(1)成对马尔可夫性(点与点之间的独立性):
指概率图中任意两个无边连接的节点,在给定其他所有节点的随机变量组的前提下满足条件独立。一般的,若设两个无概率依赖(即无边连接)的节点𝑢, 𝑣∈𝐸 ,与之对应的随机变量为 𝑌𝑢, 𝑌𝑣 ,无向图其他节点集合为 𝑂 ,与之对应的随机变量组为 𝑌𝑂 ,则在给定 𝑌𝑂 的情况下,𝑌𝑢 与 𝑌𝑣 条件独立,即:
P(Y_u,Y_v│Y_O )=P(Y_u |Y_O)P(Y_v│Y_O ) (1)
(2)局部马尔可夫性(点与点集之间的独立性):
指概率图中任意一个随机变量,在给定与其依赖的(有边连接的)所有随机变量的前提下,该点与同他不相关随机变量集合满足条件独立。一般的,若设节点 𝑢∈{E},与之相关的随机变量组为 Y_(W ),与之不相关的随机变量组为 Y_O ,则在给定 Y_W 的情况下,Y_u与Y_O条件独立:
P(Y_u,Y_O│Y_W )=P(Y_u |Y_W)P(Y_O│Y_W ) (2)
其中,当(P(Y_O│Y_W )>0 时,式(1-2)两边同除因子,并由条件概率公式可得等价关系:
P(Y_u│Y_W )=P(Y_u |Y_W,Y_O) (3)
(3)全局马尔可夫性(点集与点集之间的独立性):
若设随机变量集合 A,B 在概率图中被集合 C 隔离,即 A,B 两个集合中间没有直接的概率依赖,但通过集合 C 相连,那么在给定随机变量组〖 Y〗C 的情况下, Y(A )与 Y_B 条件独立,即:
P(Y_A,Y_B│Y_C )=P(Y_A |Y_C)P(Y_B│Y_C ) (4)

CRFs 克服了标记偏置等问题,避免了对文本序列建模,同时在一定程度上利用了文本中丰富的上下文特征,在中文命名实体识别任务中,取得了不错的效果,代表了当前 the-state-of-the-art。
从HMM、CRFs 等统计模型的实验结果来看,经过对给定标记语料进行训练后,这些全监督学习到的模型对训练语料本身的特征已经有了很好概括和抽象,在与训练语料领域相同的封闭测试集上的标注结果也十分出色。然而,一方面,用这些模型对其他领域的语料进行标注时,标注效果下降十分明显。另一方面,现实中的语言模型不一定满足传统统计模型中条件独立假设的前提。实践中,统计模型由特定语料训练得到的模型往往具有很强的特征偏向性。究其更深层原因,是因为这些理论模型是在一系列条件独立的概率学假设基础上建立的,这种假设下的统计模型显然对复杂的语言模型缺乏完备的描述和有效的抽象。这进一步说明了这些模型方法并不具备优秀的迁移学习(Transfer Learning)和启发学习(Heuristic Learning
)的能力。
因此我们提出了基于神经网络的命名实体识别。说到神经网络,首先介绍RNN。

3RNN


RNN.jpg

RNN是一个随着时间的推移,重复发生的结构,这反复出现的神经网络可以被认为是在同一个网络中的多个副本,每个都传递消息给继承者,就是下个时态的神经元。

然而RNN存在长时间依赖问题,即不能处理距离太远的信息。
所以我们提出LSTM,不存在这个问题。

4LSTM


LSTM.jpg

LSTM可以完全删除或添加单元状态的信息,被称为门限“gates”的结构将会控制信息,门限可以选择性的让信息通过,它由Sigmoid神经网络层和点乘操作组成。一个LSTM有3各Sigmoid,分别控制输入、更新、输出。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容