《Paraphrase Generation with Deep Reinforcement Learning》阅读笔记

论文链接:paper

(......paraphrase翻译成中文不知道是不是这个:释义,这篇博客都用的这个来表示,如果是错的,欢迎纠错哦(*^__^*))

给定一个句子,自动生成释义是NLP中一个重要任务,在很多应用中扮演重要角色,例如question answering问答, information retrieval信息检索,dialogue对话。本文用一个深度强化学习方法来做释义生成,包含一个generator和一个teacher。generator是一个sequence-to-sequence框架,可以对给定句子生成释义。teacher是一个深度神经网络模型,可以决定句子之间是否相互是释义。

在构建来generator和teacher之后,the generator is further fine-tuned by reinforcement learning in which the reward is given by a teacher.  研究表明teacher可以给generator提供精确的知道,并且引导generator生成更准确的释义。


Introduction:

paraphrase是具有相同意义但是不同表达的文本。释义在很多场景中都是非常重要的部分,例如基于检索的qa问答,web搜索的查询重写,为面向任务的对话做数据增强。然而由于自然语言的灵活性和多样性,自动生成准确和多种释义具有挑战性。

传统的方法:基于规则,基于同义词词典,statistical machine translation(SMT)

近期,基于神经网络的seq2seq学习在很多NLP任务上都取得了不错的效果,包括机器翻译,短文交谈(short-text conversation),text summarization,question answering。

与最近出现的技术结合,例如attention机制,copying机制和coverage模型。seq2seq模型更加有效。

释义生成可以看作是sequence-to-sequence学习的问题,给定a collection of pairs of paraphrases as training data.

sequence-to-sequence模型通常用最大化给定一个输入序列,预测输出序列的对数似然,训练集和测试集可能会包含矛盾。2015年Ranzato提出了强化学习(reinforcement learning),来自REINFORCE算法,直接优化序列级别的metric,例如BLEU或ROUGE。然而,使用这些metrics作为reward function会有问题,因为所有的metrics是基于和human references的词汇相似度,不能很好的代表paraphrase相似度。所以这种方法是次优的

本文,使用强化学习,用policy gradient来训练generator。不使用evaluation metric,本文使用深度匹配网络(deep matching network)建模reward function,可以区分positive和negative的例子。

generator:attentive Seq2Seq 架构,结合copy and coverage mechanisms。

teacher:deep matching network based on the decomposable attention model。


Background:

释义生成可以看作是seq2seq的转型问题。给定一句话X=[x1, x2, ..., xL]长度为L,生成另一个输出序列Y=[y1, y2,... yT] 长度为T,输入和输出有相同含义。有不同粒度的,从phrase短语到passage文章,本文针对句子级别的释义问题。

Neural Sequence-to-Sequence Models with Attention

Seq2Seq模型是基于encoder-decoder框架的,都是Recurrent Neural Network(RNN)。encoder将输入序列X转换成一系列隐状态H=[h1, ... hL], hi=fh(xi, hi-1).  decoder基于states和之前的单词yt-1,预测下一个词by sampleing

decoder

st是decoder的状态,ct是context vector

st

attention机制:

根据有权重的encoder states来计算context vector:

context vector

ati是attention权重, attention function

attention function

attention function:which can be a feed-forward neural network and jointly trained within the whole network. 

Seq2Seq模型通过最大化对数似然来训练:

对数似然

在计算条件概率时,常规方法是使用yt-1的真实值,而不是模型生成的,为了避免符合错误。这个方法称为teacher forcing.

Incorporating copying and coverage mechanism

有时会需要从输入序列复制一些词,具体来说,decoder除了会从fixed-size vocabulary,也会需要从输入序列选择词。最后decoder中下一个词的概率是混合模型:

概率

q(st, ct, yt-1)是一个二元分类器,管理generation mode和copy mode之间的切换概率。

受到单词重复的问题影响,因此在目标函数中加入coverage loss:

目标函数

Neural Networks for Matching sentences:

另一个问题是paraphrase identification,可以决定一对句子是否是paraphrases。 本文方法是通过训练一个matching模型,这个模型可以identify paraphrases。然后tune the paraphrase generator based on the feedback from the matching model, 根据matching模型的反馈来调整generator。  

选择一个decomposable attention model模型,来计算两个句子之间的相似度,给定两个句子X和Y,这个模型通过以下三步来计算:

1. attend,两个句子互相inter-attended....(X﹏X 不懂啊...直接上公式)

Attend

e(.)是维度为d的word embedding。公式计算的别分是xi和yi的inter-attentive vector

2. Compare,对每个单词,embedding vector与attentive vector合并,通过一个前向神经网络fc

compare

3. Aggregate,两个序列分别求和,然后用线性分类fa

Aggregate

z是X和Y之间的匹配度

除此之外,positional encoding

positional encoding

代表位置i的position encoding vector


模型:

传统seq2seq模型的问题:1)需要大量数据来训练模型  2)使用teacher,训练和预测的矛盾(也称为exposure bias)随着生成的序列加速导致错误。 3)使用对数似然作为目标函数对这个问题不是首选项。paraphrasing的最终目标是根据输入句子生成多个相同意思的句子,而不是选取最貌似有理的seq2seq的翻译。为了解决这个问题,本文提出在强化学习的框架下去优化seq2seq模型。而不是使用一个基于词典的evaluation metric作为目标,同时,本文学习了一个matching网络,作为teacher,可以给generator提供可靠的信号来fine-tune。

generator G:最大化训练future expected reward,which can be obtained in various manner。

reward function的选择可以是evaluation metric 例如BLEU或ROUGE,对比生成的序列和reference。

在RL setting中,生成下一个词被定义为一个action,decoding概率产生了一个stochastic policy(随机策略):

decoding probability

rt是t时刻的reward

the cumulative reward累积奖励(the return)

RL的目标是找到一个policy,可以最大化expected return:

expected return

在序列生成的任务中,reward通常在序列的结尾获得,这会带来系数的reward signal。受到reward shaping的启发,使用value function作为一个surrogate(代理),定义为每个时间点的expected cumulative reward。

expected cumulative reward

value function约等于每一时间点的蒙特卡洛模拟的总计:

value function
公式解释

使用ROUGE-2 score 作为reward,即

ROUGE-2 score

根据policy gradient theorem(policy梯度定理),expected return的梯度为:

gradient

baseline function b:

reduce the variance of gradient estimator

本文使用的baseline function是moving average,而不是一个分离的神经网络。

baseline function



Learning Reward with Deep Matching Network:

基于decomposable-attention architecture:

用二元交叉熵损失训练M:

二元交叉熵损失训练teacher

也可以使用margin-based ranking loss:

margin-based ranking loss

目标函数,使用不同的reward或者the value function

objective function
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容