Pointer Network (Vinyals et al., 2015)
Pointer Network针对原seq2seq模型的输出序列受限于固定大小的问题而提出,该框架期望decoder的输出长度随encoder模型的输入长度变化而变化,本质上是对基于attention机制的seq2seq模型的简化,decoder的每一个时间步将输出input sequence各token的概率分布,选择概率最高的输出,直至输出<EOS>。
设输入序列为,输出序列为,此处的表示输出序列的长度与输入序列相关。将encoder部分的隐藏层状态表示为,decoder部分的隐藏层状态表示为。
Pointer Network在第个位置的输出计算如下:
其中、、均为模型需要学习的参数,第一个式子则是attention机制中计算decoder第i个位置的隐藏状态与encoder输入序列各位置隐藏状态的关联,对应输入序列中各token的分值,各分值经过softmax归一化操作得到的输出视为输入序列各token的概率分布,该步将选择概率最大的token作为输出。当然此时的输入序列与原seq2seq模型的不同在于需额外添加一个<EOS>的token。
Get To The Point: Summarization with Pointer-Generator Networks (See et al., 2017)
Pointer-Generator Networks可以视为一个基于attention机制的seq2seq模型和pointer network的混合体,既能从给定词汇表中生成新token,又能从原输入序列中拷贝旧token,其框架如下图所示。
图中Source Text中各token 经过一个单层双向LSTM将依次得到Encoder Hidden States序列,各隐藏层状态表示为。在每一个时间步,decoder将根据上一个预测得到的单词的embedding经一个单层双向LSTM得到Decoder Hidden State ,此时计算基于的各的Attention Distribution 计算如下:
其中,、、、均为模型要学习的参数。接下来Attention Distribution将被用于生成当前时间步的上下文向量,继而同Decoder Hidden State 拼接起来经由两个线性层产生基于输出序列词典的Vocabulary Distribution :
其中,、、、均为模型需要学习的参数。
上述过程为传统基于attention机制的seq2seq模型的计算过程。接下来为了在输出中可以拷贝输入序列中的token,将根据上下文向量、Decoder Hidden State 和Decoder input 计算生成概率:
其中、、、均为模型要学习的参数。的作用在于调节生成的单词是来自于根据在输出序列的词典中的采样还是来自于根据在输入序列的token中的采样,最终的token分布表示如下:
其中表示输入序列中的token ,这里会将在输入序列中可能出现多次的的注意力分布相加。当未在输出序列的词典中出现时,;类似地,当未出现在输入序列中时,.
总结
Pointer-Generator Networks在基于attention机制的seq2seq模型中融合copy机制,并应用于文本摘要任务中,实则是基于上下文向量、decoder input以及decoder hidden state计算一个生成单词的概率p,对应拷贝单词的概率则为1-p,根据概率综合encoder的注意力分布和decoder的output分布得到一个综合的基于input token和output vocabulary的token分布。此外本文关注的是多语句的摘要生成,因此额外考虑了生成摘要时的重复问题,在计算attention得分时,除了考虑decoder hidden state和encoder hidden state外,还额外加入之前生成token的attention分布总和一项,并在最终loss的计算上额外添加了一个名为 coverage loss的惩罚项(该部分上文尚未细述),以避免摘要生成时的重复问题。