【论文阅读笔记】文本摘要任务中的copy机制(Summarization with Pointer-Generator Networks)

Pointer Network (Vinyals et al., 2015)

Pointer Network针对原seq2seq模型的输出序列受限于固定大小的问题而提出,该框架期望decoder的输出长度随encoder模型的输入长度变化而变化,本质上是对基于attention机制的seq2seq模型的简化,decoder的每一个时间步将输出input sequence各token的概率分布,选择概率最高的输出,直至输出<EOS>。

设输入序列为\mathbf{X}=\{x_1,x_2,\dots,x_n\},输出序列为\mathbf{Y}=\{y_1,y_2,\dots,y_{m(\mathbf{X})}\},此处的m(\mathbf{X})表示输出序列的长度与输入序列相关。将encoder部分的隐藏层状态表示为(e_1,e_2,\dots,e_n),decoder部分的隐藏层状态表示为(d_1,d_2,\dots,d_{m(\mathbf{X})})

Pointer Network在第i个位置的输出P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)计算如下:
u_j^i=v^\top tanh(W_1e_j+W_2d_i) \qquad j \in (1, \dots , n) \\ P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)=softmax(u^i)
其中vW_1W_2均为模型需要学习的参数,第一个式子则是attention机制中计算decoder第i个位置的隐藏状态与encoder输入序列各位置隐藏状态的关联,对应输入序列中各token的分值,各分值经过softmax归一化操作得到的输出视为输入序列各token的概率分布,该步将选择概率最大的token作为输出。当然此时的输入序列与原seq2seq模型的不同在于需额外添加一个<EOS>的token。

Get To The Point: Summarization with Pointer-Generator Networks (See et al., 2017)

Pointer-Generator Networks可以视为一个基于attention机制的seq2seq模型和pointer network的混合体,既能从给定词汇表中生成新token,又能从原输入序列中拷贝旧token,其框架如下图所示。

Pointer-Generator Networks

图中Source Text中各token w_i经过一个单层双向LSTM将依次得到Encoder Hidden States序列,各隐藏层状态表示为h_i。在每一个时间步t,decoder将根据上一个预测得到的单词的embedding经一个单层双向LSTM得到Decoder Hidden State s_t,此时计算基于s_t的各h_i的Attention Distribution a^t计算如下:
e^t_i = v^\top tanh(W_h h_i + W_s s_t + b_{attn}) \\ a^t = softmax(e^t)
其中,vW_hW_sb_{attn}均为模型要学习的参数。接下来Attention Distribution将被用于生成当前时间步的上下文向量h_t^\star,继而同Decoder Hidden State s_t拼接起来经由两个线性层产生基于输出序列词典的Vocabulary Distribution P_{vocab}
h_t^\star = \sum_i a_i^t h_i \\ P_{vocab} = softmax( V ^{'} ( V [s_t , h_t^\star ] + b ) + b^{'})
其中,VV^{'}bb^{'}均为模型需要学习的参数。

上述过程为传统基于attention机制的seq2seq模型的计算过程。接下来为了在输出中可以拷贝输入序列中的token,将根据上下文向量h_t^\star、Decoder Hidden State s_t和Decoder input x_t计算生成概率p_{gen}:
p_{gen} = \sigma (w_{h^\star}^\top h_t^\star + w_s^\top s_t + w_x^\top x_t + b_{ptr})
其中w_{h^\star}^\topw_s^\topw_x^\topb_{ptr}均为模型要学习的参数。p_{gen}的作用在于调节生成的单词是来自于根据P_{vocab}在输出序列的词典中的采样还是来自于根据a^t在输入序列的token中的采样,最终的token分布表示如下:
P(w)=p_{gen} P_{vocab}(w)+\left(1-p_{gen}\right) \sum_{i: w_{i}=w} a_{i}^{t}
其中i: w_{i}=w表示输入序列中的token w,这里会将在输入序列中可能出现多次的w的注意力分布相加。当w未在输出序列的词典中出现时,P_{vocab}(w)=0;类似地,当w未出现在输入序列中时,\sum_{i: w_{i}=w} a_{i}^{t} = 0.

总结

Pointer-Generator Networks在基于attention机制的seq2seq模型中融合copy机制,并应用于文本摘要任务中,实则是基于上下文向量、decoder input以及decoder hidden state计算一个生成单词的概率p,对应拷贝单词的概率则为1-p,根据概率综合encoder的注意力分布和decoder的output分布得到一个综合的基于input token和output vocabulary的token分布。此外本文关注的是多语句的摘要生成,因此额外考虑了生成摘要时的重复问题,在计算attention得分时,除了考虑decoder hidden state和encoder hidden state外,还额外加入之前生成token的attention分布总和一项,并在最终loss的计算上额外添加了一个名为 coverage loss的惩罚项(该部分上文尚未细述),以避免摘要生成时的重复问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351