《Paraphrase Generation with Deep Reinforcement Learning》阅读笔记

论文链接：paper

（......paraphrase翻译成中文不知道是不是这个：释义，这篇博客都用的这个来表示，如果是错的，欢迎纠错哦(*^__^*)）

给定一个句子，自动生成释义是NLP中一个重要任务，在很多应用中扮演重要角色，例如question answering问答, information retrieval信息检索，dialogue对话。本文用一个深度强化学习方法来做释义生成，包含一个generator和一个teacher。generator是一个sequence-to-sequence框架，可以对给定句子生成释义。teacher是一个深度神经网络模型，可以决定句子之间是否相互是释义。

在构建来generator和teacher之后，the generator is further fine-tuned by reinforcement learning in which the reward is given by a teacher. 研究表明teacher可以给generator提供精确的知道，并且引导generator生成更准确的释义。

Introduction：

paraphrase是具有相同意义但是不同表达的文本。释义在很多场景中都是非常重要的部分，例如基于检索的qa问答，web搜索的查询重写，为面向任务的对话做数据增强。然而由于自然语言的灵活性和多样性，自动生成准确和多种释义具有挑战性。

传统的方法：基于规则，基于同义词词典，statistical machine translation(SMT)

近期，基于神经网络的seq2seq学习在很多NLP任务上都取得了不错的效果，包括机器翻译，短文交谈(short-text conversation)，text summarization，question answering。

与最近出现的技术结合，例如attention机制，copying机制和coverage模型。seq2seq模型更加有效。

释义生成可以看作是sequence-to-sequence学习的问题，给定a collection of pairs of paraphrases as training data.

sequence-to-sequence模型通常用最大化给定一个输入序列，预测输出序列的对数似然，训练集和测试集可能会包含矛盾。2015年Ranzato提出了强化学习(reinforcement learning)，来自REINFORCE算法，直接优化序列级别的metric，例如BLEU或ROUGE。然而，使用这些metrics作为reward function会有问题，因为所有的metrics是基于和human references的词汇相似度，不能很好的代表paraphrase相似度。所以这种方法是次优的

本文，使用强化学习，用policy gradient来训练generator。不使用evaluation metric，本文使用深度匹配网络（deep matching network）建模reward function，可以区分positive和negative的例子。

generator：attentive Seq2Seq 架构，结合copy and coverage mechanisms。

teacher：deep matching network based on the decomposable attention model。

Background：

释义生成可以看作是seq2seq的转型问题。给定一句话X=[x1, x2, ..., xL]长度为L，生成另一个输出序列Y=[y1, y2,... yT] 长度为T，输入和输出有相同含义。有不同粒度的，从phrase短语到passage文章，本文针对句子级别的释义问题。

Neural Sequence-to-Sequence Models with Attention

Seq2Seq模型是基于encoder-decoder框架的，都是Recurrent Neural Network(RNN)。encoder将输入序列X转换成一系列隐状态H=[h1, ... hL], hi=fh(xi, hi-1). decoder基于states和之前的单词yt-1，预测下一个词by sampleing

decoder

st是decoder的状态，ct是context vector

attention机制：

根据有权重的encoder states来计算context vector：

context vector

ati是attention权重， attention function

attention function

attention function：which can be a feed-forward neural network and jointly trained within the whole network.

Seq2Seq模型通过最大化对数似然来训练：

对数似然

在计算条件概率时，常规方法是使用yt-1的真实值，而不是模型生成的，为了避免符合错误。这个方法称为teacher forcing.

Incorporating copying and coverage mechanism

有时会需要从输入序列复制一些词，具体来说，decoder除了会从fixed-size vocabulary，也会需要从输入序列选择词。最后decoder中下一个词的概率是混合模型：

概率

q(st, ct, yt-1)是一个二元分类器，管理generation mode和copy mode之间的切换概率。

受到单词重复的问题影响，因此在目标函数中加入coverage loss：

目标函数

Neural Networks for Matching sentences：

另一个问题是paraphrase identification，可以决定一对句子是否是paraphrases。本文方法是通过训练一个matching模型，这个模型可以identify paraphrases。然后tune the paraphrase generator based on the feedback from the matching model, 根据matching模型的反馈来调整generator。

选择一个decomposable attention model模型，来计算两个句子之间的相似度，给定两个句子X和Y，这个模型通过以下三步来计算：

1. attend，两个句子互相inter-attended....（X﹏X 不懂啊...直接上公式）

Attend

e(.)是维度为d的word embedding。公式计算的别分是xi和yi的inter-attentive vector

2. Compare，对每个单词，embedding vector与attentive vector合并，通过一个前向神经网络fc

compare

3. Aggregate，两个序列分别求和，然后用线性分类fa

Aggregate

z是X和Y之间的匹配度

除此之外，positional encoding：

positional encoding

代表位置i的position encoding vector

模型：

传统seq2seq模型的问题：1）需要大量数据来训练模型 2）使用teacher，训练和预测的矛盾（也称为exposure bias）随着生成的序列加速导致错误。 3）使用对数似然作为目标函数对这个问题不是首选项。paraphrasing的最终目标是根据输入句子生成多个相同意思的句子，而不是选取最貌似有理的seq2seq的翻译。为了解决这个问题，本文提出在强化学习的框架下去优化seq2seq模型。而不是使用一个基于词典的evaluation metric作为目标，同时，本文学习了一个matching网络，作为teacher，可以给generator提供可靠的信号来fine-tune。