【论文阅读笔记】文本摘要任务中的copy机制(Summarization with Pointer-Generator Networks)

Pointer Network (Vinyals et al., 2015)

Pointer Network针对原seq2seq模型的输出序列受限于固定大小的问题而提出,该框架期望decoder的输出长度随encoder模型的输入长度变化而变化,本质上是对基于attention机制的seq2seq模型的简化,decoder的每一个时间步将输出input sequence各token的概率分布,选择概率最高的输出,直至输出<EOS>。

设输入序列为\mathbf{X}=\{x_1,x_2,\dots,x_n\},输出序列为\mathbf{Y}=\{y_1,y_2,\dots,y_{m(\mathbf{X})}\},此处的m(\mathbf{X})表示输出序列的长度与输入序列相关。将encoder部分的隐藏层状态表示为(e_1,e_2,\dots,e_n),decoder部分的隐藏层状态表示为(d_1,d_2,\dots,d_{m(\mathbf{X})})

Pointer Network在第i个位置的输出P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)计算如下:
u_j^i=v^\top tanh(W_1e_j+W_2d_i) \qquad j \in (1, \dots , n) \\ P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)=softmax(u^i)
其中vW_1W_2均为模型需要学习的参数,第一个式子则是attention机制中计算decoder第i个位置的隐藏状态与encoder输入序列各位置隐藏状态的关联,对应输入序列中各token的分值,各分值经过softmax归一化操作得到的输出视为输入序列各token的概率分布,该步将选择概率最大的token作为输出。当然此时的输入序列与原seq2seq模型的不同在于需额外添加一个<EOS>的token。

Get To The Point: Summarization with Pointer-Generator Networks (See et al., 2017)

Pointer-Generator Networks可以视为一个基于attention机制的seq2seq模型和pointer network的混合体,既能从给定词汇表中生成新token,又能从原输入序列中拷贝旧token,其框架如下图所示。

Pointer-Generator Networks

图中Source Text中各token w_i经过一个单层双向LSTM将依次得到Encoder Hidden States序列,各隐藏层状态表示为h_i。在每一个时间步t,decoder将根据上一个预测得到的单词的embedding经一个单层双向LSTM得到Decoder Hidden State s_t,此时计算基于s_t的各h_i的Attention Distribution a^t计算如下:
e^t_i = v^\top tanh(W_h h_i + W_s s_t + b_{attn}) \\ a^t = softmax(e^t)
其中,vW_hW_sb_{attn}均为模型要学习的参数。接下来Attention Distribution将被用于生成当前时间步的上下文向量h_t^\star,继而同Decoder Hidden State s_t拼接起来经由两个线性层产生基于输出序列词典的Vocabulary Distribution P_{vocab}
h_t^\star = \sum_i a_i^t h_i \\ P_{vocab} = softmax( V ^{'} ( V [s_t , h_t^\star ] + b ) + b^{'})
其中,VV^{'}bb^{'}均为模型需要学习的参数。

上述过程为传统基于attention机制的seq2seq模型的计算过程。接下来为了在输出中可以拷贝输入序列中的token,将根据上下文向量h_t^\star、Decoder Hidden State s_t和Decoder input x_t计算生成概率p_{gen}:
p_{gen} = \sigma (w_{h^\star}^\top h_t^\star + w_s^\top s_t + w_x^\top x_t + b_{ptr})
其中w_{h^\star}^\topw_s^\topw_x^\topb_{ptr}均为模型要学习的参数。p_{gen}的作用在于调节生成的单词是来自于根据P_{vocab}在输出序列的词典中的采样还是来自于根据a^t在输入序列的token中的采样,最终的token分布表示如下:
P(w)=p_{gen} P_{vocab}(w)+\left(1-p_{gen}\right) \sum_{i: w_{i}=w} a_{i}^{t}
其中i: w_{i}=w表示输入序列中的token w,这里会将在输入序列中可能出现多次的w的注意力分布相加。当w未在输出序列的词典中出现时,P_{vocab}(w)=0;类似地,当w未出现在输入序列中时,\sum_{i: w_{i}=w} a_{i}^{t} = 0.

总结

Pointer-Generator Networks在基于attention机制的seq2seq模型中融合copy机制,并应用于文本摘要任务中,实则是基于上下文向量、decoder input以及decoder hidden state计算一个生成单词的概率p,对应拷贝单词的概率则为1-p,根据概率综合encoder的注意力分布和decoder的output分布得到一个综合的基于input token和output vocabulary的token分布。此外本文关注的是多语句的摘要生成,因此额外考虑了生成摘要时的重复问题,在计算attention得分时,除了考虑decoder hidden state和encoder hidden state外,还额外加入之前生成token的attention分布总和一项,并在最终loss的计算上额外添加了一个名为 coverage loss的惩罚项(该部分上文尚未细述),以避免摘要生成时的重复问题。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。