【论文阅读笔记】文本摘要任务中的copy机制（Summarization with Pointer-Generator Networks）

Pointer Network (Vinyals et al., 2015)

Pointer Network针对原seq2seq模型的输出序列受限于固定大小的问题而提出，该框架期望decoder的输出长度随encoder模型的输入长度变化而变化，本质上是对基于attention机制的seq2seq模型的简化，decoder的每一个时间步将输出input sequence各token的概率分布，选择概率最高的输出，直至输出<EOS>。

设输入序列为 $\mathbf{X}=\{x_1,x_2,\dots,x_n\}$ ，输出序列为 $\mathbf{Y}=\{y_1,y_2,\dots,y_{m(\mathbf{X})}\}$ ，此处的 $m(\mathbf{X})$ 表示输出序列的长度与输入序列相关。将encoder部分的隐藏层状态表示为 $(e_1,e_2,\dots,e_n)$ ，decoder部分的隐藏层状态表示为 $(d_1,d_2,\dots,d_{m(\mathbf{X})})$ 。

Pointer Network在第 $i$ 个位置的输出 $P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)$ 计算如下：
$u_j^i=v^\top tanh(W_1e_j+W_2d_i) \qquad j \in (1, \dots , n) \\ P(y_i|y_1,\dots,y_{i-1},x_1,\dots,x_n)=softmax(u^i)$
其中 $v$ 、 $W_1$ 、 $W_2$ 均为模型需要学习的参数，第一个式子则是attention机制中计算decoder第i个位置的隐藏状态与encoder输入序列各位置隐藏状态的关联，对应输入序列中各token的分值，各分值经过softmax归一化操作得到的输出视为输入序列各token的概率分布，该步将选择概率最大的token作为输出。当然此时的输入序列与原seq2seq模型的不同在于需额外添加一个<EOS>的token。

Get To The Point: Summarization with Pointer-Generator Networks (See et al., 2017)

Pointer-Generator Networks可以视为一个基于attention机制的seq2seq模型和pointer network的混合体，既能从给定词汇表中生成新token，又能从原输入序列中拷贝旧token，其框架如下图所示。

Pointer-Generator Networks

图中Source Text中各token $w_i$ 经过一个单层双向LSTM将依次得到Encoder Hidden States序列，各隐藏层状态表示为 $h_i$ 。在每一个时间步 $t$ ，decoder将根据上一个预测得到的单词的embedding经一个单层双向LSTM得到Decoder Hidden State $s_t$ ，此时计算基于 $s_t$ 的各 $h_i$ 的Attention Distribution $a^t$ 计算如下：
$e^t_i = v^\top tanh(W_h h_i + W_s s_t + b_{attn}) \\ a^t = softmax(e^t)$
其中， $v$ 、 $W_h$ 、 $W_s$ 、 $b_{attn}$ 均为模型要学习的参数。接下来Attention Distribution将被用于生成当前时间步的上下文向量 $h_t^\star$ ，继而同Decoder Hidden State $s_t$ 拼接起来经由两个线性层产生基于输出序列词典的Vocabulary Distribution $P_{vocab}$ ：
$h_t^\star = \sum_i a_i^t h_i \\ P_{vocab} = softmax( V ^{'} ( V [s_t , h_t^\star ] + b ) + b^{'})$
其中， $V$ 、 $V^{'}$ 、 $b$ 、 $b^{'}$ 均为模型需要学习的参数。

上述过程为传统基于attention机制的seq2seq模型的计算过程。接下来为了在输出中可以拷贝输入序列中的token，将根据上下文向量 $h_t^\star$ 、Decoder Hidden State $s_t$ 和Decoder input $x_t$ 计算生成概率 $p_{gen}$ :
$p_{gen} = \sigma (w_{h^\star}^\top h_t^\star + w_s^\top s_t + w_x^\top x_t + b_{ptr})$
其中 $w_{h^\star}^\top$ 、 $w_s^\top$ 、 $w_x^\top$ 、 $b_{ptr}$ 均为模型要学习的参数。 $p_{gen}$ 的作用在于调节生成的单词是来自于根据 $P_{vocab}$ 在输出序列的词典中的采样还是来自于根据 $a^t$ 在输入序列的token中的采样，最终的token分布表示如下：
$P(w)=p_{gen} P_{vocab}(w)+\left(1-p_{gen}\right) \sum_{i: w_{i}=w} a_{i}^{t}$
其中 $i: w_{i}=w$ 表示输入序列中的token $w$ ，这里会将在输入序列中可能出现多次的 $w$ 的注意力分布相加。当 $w$ 未在输出序列的词典中出现时， $P_{vocab}(w)=0$ ；类似地，当 $w$ 未出现在输入序列中时， $\sum_{i: w_{i}=w} a_{i}^{t} = 0$ .

总结

Pointer-Generator Networks在基于attention机制的seq2seq模型中融合copy机制，并应用于文本摘要任务中，实则是基于上下文向量、decoder input以及decoder hidden state计算一个生成单词的概率p，对应拷贝单词的概率则为1-p，根据概率综合encoder的注意力分布和decoder的output分布得到一个综合的基于input token和output vocabulary的token分布。此外本文关注的是多语句的摘要生成，因此额外考虑了生成摘要时的重复问题，在计算attention得分时，除了考虑decoder hidden state和encoder hidden state外，还额外加入之前生成token的attention分布总和一项，并在最终loss的计算上额外添加了一个名为 coverage loss的惩罚项（该部分上文尚未细述），以避免摘要生成时的重复问题。