crf-5 所有路径总分数(翻译)

crf-5 所有路径总分数(翻译)

源文地址:https://createmomo.github.io/2017/11/11/CRF-Layer-on-the-Top-of-BiLSTM-5/

2.5 所有路径总分数

在上一节中,我们学习了如何计算一个eSi标签路径分数。目前,我们有很多问题要解决,如何计算所有路径的总分数。(Ptotal = P1+P2+…+PN = eS1+eS2+…+eSN

去计算总分数的简单方法是:枚举所有路径并计算这些分数。你可以用这种方法计算总分。但是,这是非常低效的。训练的时间将是你难以忍受的。

在阅读下面的内容之前,我建议你准备好纸和笔,并按照练习示例中的步骤进行操作。我相信这将帮助您更好的理解算法的细节。此外,您应该知道如何通过您喜欢的编程语言来实现它。

Step 1:回顾CRF损失函数

在2.3节中,我们定义了CRF损失函数:

image-20200522155536351.png

现在我们将损失函数改为log 损失函数:
image-20200522155641479.png

因为当我们训练模型的时候,通常我们的目标是最小化我们的损失函数,我们添加一个负号:
image-20200522155847479.png

在前面的章节,我们已经知道了如何计算真实路径分数,现在我们需要找一个有效的解决方法来计算 log⁡(eS1 + eS2 + … + eSN)。

Step 2:回顾发射和转移分数

简单的,假设我们通过长度只有3的练习句子来训练我们的模型。

x = [w0, w1, w2]

另外,在我们的数据中只有两个标签:

LabelSet = {l1, l2}

从2.1章描述的Bi-LSTM的输出层,我们可以得到发射分数:

l1 l2
w0 x01 x02
w1 x11 x12
w2 x21 x22

xi,j 表示 wi 被标记为 lj 的分数。

此外,在2.2章从CRF层得到的转移分数如下:

l1 l2
l1 t11 t12
l2 t21 t22

tij 是标签 i 到标签 j 的转移分数。

Step 3: 开始实战!

记住:我们的计算目标是: log⁡(eS1 + eS2 + … + eSN)。

这个过程是分数的累加:这个思想和动态规划类似(如果您不知道什么是动态规划,也可以继续阅读本文。我将逐步解释这个练习示例。但我强烈建议你学习动态规划算法)。简而言之,就是计算 w0 所有可能路径的总分数。然后我们使用总分数来计算 w0 —> w1。最终,我们使用最新的总分来计算 w0 —> w1 —> w2 。最终的总分数就是我们需要的。

在接下来的步骤中,您将看到两个变量:obs和previous。previous存储前面步骤的最终结果。obs表示来自当前单词的信息。


w0 :

obs = [x01, x02] previous = None

如果我们的句子只有一个单词 w0,我们没有上一步的结果,因此 previous 是None。另外,我们仅仅只能观测到第一个单词 obs = [x01, x02]。x01, x02是上面提到的发射分数。

你可能会思考,w0 所有可能路径的总分数是多少?答案非常简单是:

image-20200522175755437.png


w0 —> w1 :

obs = [x11, x12] previous = [x01, x02]

  1. previous 扩展为:
image-20200522180024816.png
  1. obs 扩展为:
image-20200522180125954.png

你可能会想,为什么我们要把 previousobs扩展成矩阵。因为矩阵可以使总分的计算更加有效率。在下面的过程中,您将很快看到这一点。

  1. previousobs 和转移分数相加:
    image-20200522180618526.png

然后:

image-20200522180648390.png

为下一次迭代改变previous的值:

image-20200522180717152.png

实际上,第二次迭代已经完成。假如,有些人想知道如何计算从 w0 —> w1所有可能路径

image-20200522225025648.png

的总得分,你可以按如下方法计算。

在新的previous 我们使用的元素:

image-20200522180857146.png

你发现什么了吗?这正是我们的目标:
image-20200522225133139.png

在方程中,我们可以看到:

image-20200522180945883.png

w0 → w1 → w2:

如果你在这里阅读,你几乎完成了。事实上,在这个迭代中,我们将执行与上次迭代中描述的相同的过程。

image-20200522234409991.png

1)将previous扩展为:

image-20200522181218703.png
  1. obs 扩展为:
image-20200522181237196.png

3)将previous,obs和 转移分数求和:

image-20200522181310892.png

然后:

image-20200522181340114.png

为下一次迭代改变previous的值:

image-20200522181414301.png

如上次迭代所述,在新的previous中我们使用元素来计算总的分数:

image-20200522181442691.png
祝贺

我们实现了目标 log⁡(eS1 + eS2 + … + eSN),在我们的练习句中有三个单词,在我们的标签集中有两个标签。因此,应该总共有8种可能的标签路径。


在您享用一杯咖啡或一块甜蛋糕休息之前,请允许我说几句话。虽然您发现这个过程相当复杂,但是这个算法的实现要简单得多。使用计算机的优点之一是它可以进行重复工作。

现在您可以自己实现CRF损失函数,并开始训练自己的模型。

下一篇

2.6 推断新句子的标签

我们已经学习了CRF loss function的细节,下一步是当我们将我们的模型应用到一个测试集时,如何推断出一个新句子的标签。

参考文献

[1] Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K. and Dyer, C., 2016. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360. https://arxiv.org/abs/1603.01360

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352