Pointer Network 生成文本摘要

指针网络 Pointer Network 是一种 Seq2Seq 模型,但是其 Decoder 预测的结果是从 Encoder 的输入序列中得到的。Pointer Network 从输入序列中得到输出结果,所以比较适合用于文本摘要的生成,并且可以比较好的避免 OOV (Out of vocabulary) 问题。本文主要介绍两种利用 Pointer Network 的文本摘要算法:Pointer-Generator Networks 和 Multi-Source Pointer Network。

1.引言

在之前的文章中介绍过指针网络 Pointer Network,指针网络是一种 Seq2Seq 模型,但是其 Decoder 预测的结果是从 Encoder 的输入序列中得到的。指针网络改变了传统 Seq2Seq 模型 Attention 的用法,用 Encoder 输入序列中 Attention 得分最高的作为当前输出。下图展示了传统 Seq2Seq Attention 与 Pointer Network 使用上的区别。简单来说,传统的 Seq2Seq 在预测时计算的是整个字典中的概率分布,而 Pointer Network 预测时计算的是输入序列中每个单词的概率分布。

Seq2Seq Attention
Pointer Network Attention

而文章摘要是 NLP 中一个比较重要的领域,常见的文章摘要方法可以分为抽取式摘要和生成式摘要。抽取式摘要主要从源文档中提取现成的句子作为摘要句,一般在语句流畅程度上比生成式摘要好,但是容易引入较多的冗余信息。生成式摘要主要根据源文档内容,通过算法模型生成摘要,而非提取原文的句子。

Pointer Network 由于可以复制输入序列的 token 作为输出,因此比较适合用于文本摘要,另外 Pointer Network 可以在一定程度上缓解 OOV 问题。例如训练集里面没有出现 "哈士奇" 这一个单词,但是在预测的时候出现了 "哈士奇",一般的 Seq2Seq 在生成摘要时通常会用 "UNK" 替换 "哈士奇",但是 Pointer Network 可以直接从输入序列中复制 "哈士奇" 作为输出。

本文主要介绍两种利用 Pointer Network 的文本摘要算法:Pointer-Generator Networks 和 Multi-Source Pointer Network。Pointer-Generator Networks 是一种同时利用了抽取式和生成式的摘要算法,而 Multi-Source Pointer Network 主要是抽取式。

2.Pointer-Generator Networks

Pointer-Generator Networks 出自论文 《Get To The Point: Summarization with Pointer-Generator Networks》。Pointer-Generator Networks 的主要内容包括以下两点:

  • 传统 Seq2Seq 模型可以计算输出时整个字典所有 token 的概率分布,Pointer-Generator Networks 在此基础上融合了指针网络计算出的输入序列 token 概率分布。从而可以缓解 OOV 问题,并且同时赋予模型生成新单词和复制原始序列两种能力。
  • 为了解决 Seq2Seq 生成摘要时容易重复相同单词的问题,Pointer-Generator Networks 加入了 coverage 机制,coverage 可以记录已生成的内容,避免重复生成。

2.1 模型

Pointer-Generator Networks 在 Seq2Seq 基础上加入了指针网络,首先看一下 Seq2Seq 的模型结构图,如下图所示。

Seq2Seq 的模型结构图

Seq2Seq 中利用 Decoder 的输出和 Encoder 每一时刻的输出计算出 Attention 分数,并根据 Attention 分数融合 Encoder 的输出得到 context vector,将 context vector 和 Decoder 的输出传入 Softmax 得到字典中 token 的概率分布。计算的公式如下:

Seq2Seq Attention

Pointer-Generator Networks 在 Seq2Seq 中加入了指针网络的机制,模型如下图所示。

Pointer-Generator Networks

可以看到,Pointer-Generator Networks 在 Seq2Seq 预测的概率分布 P_vocab (图中绿色部分) 加上了 Attention 分布 (图中蓝色部分),得到最后的概率分布。可以看到 P_vocab 中原本没有单词 "2-0",但是在 Attention 分布中包含了 "2-0",因此最后的分布也加入了 "2-0",从而减缓 OOV 问题。Pointer-Generator Networks 通过一个参数 p_gen 将两个分布加在一起,p_gen 通过学习得到。

2.2 coverage 机制

Pointer-Generator Networks 为了避免模型生成重复的序列以及遗漏翻译,加入了 coverage 机制。通过一个 coverage 向量 ct 记录 t 时刻前所有的 Attention 分数,因此可以通过 coverage 向量中每个 token 的取值判断该 token 是否被使用过,取值高的更可能被使用过。

coverage 向量

然后在计算 Attention 时要加入 coverage 向量。

计算 Attention

最后要在 Loss 中加上 coverage loss,可以看到对于第 i 个单词,如果其 attention 值和 coverage 值都很大,说明之前已经大概率生成过单词 i,则此时 coverage loss 会很大。

2.3 实验效果

实验效果

上面是三种模型的摘要对比,蓝色的是参考摘要,红色的是错误的摘要,可以看到 Seq2Seq 模型的摘要包含较多错误以及 UNK 单词。绿色的是重复的摘要,Pointer-Generator Networks 虽然比较少错误和未知单词,但是其会生成重复的摘要。而加上了 coverage 机制的 Pointer-Generator Networks 则可以比较好避免重复摘要。

3.Multi-Source Pointer Network

Multi-Source Pointer Network (以下简称 MS-Pointer) 出自论文《Multi-Source Pointer Network for Product Title Summarization》,是阿里巴巴团队提出的,用于生成产品的标题。

MS-Pointer 需要两个数据源,其中一个是商品原来的标题,另一个是一些额外的信息。额外的信息称为 "knowledge",主要包含商品名和品牌名,类似与一些商品的标签。

由于产品的标题不应该引入不相关的信息并且要保留原来的重要信息,所以 MS-Pointer 采用了抽取式的方法,摘要中所有的 token 均来自标题或者 "knowledge"。

MS-Pointer 和 Pointer-Generator Networks 比较类似,区别在于 MS-Pointer 使用一个标题 Encoder 得到标题 token 的 Attention 分布,使用一个 "knowledge" Encoder 得到 "knowledge" 的 Attention 分布,将两个 Attention 分布融合在一起。模型的示意图如下:

MS_Pointer

如上图所示,MS-Pointer 将两个 Attention 分布融合,融合的参数用以下公式计算:

MS_Pointer 融合的参数

4.参考文献

Get To The Point: Summarization with Pointer-Generator Networks

Multi-Source Pointer Network for Product Title Summarization

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351