中科院华为2019ACL获奖论文:弥合机器翻译中训练和推理之间的差距

                                                        弥合机器翻译中训练和推理之间的差距

链接: https://arxiv.org/pdf/1906.02448

       机器翻译基于语境序列化地生成预测的目标单词。在训练时,它用真实单词作为语境,推理时则必须从零开始生成整个序列。这个是否提供语境的矛盾导致了错误的累积。此外,单词级别的训练需要生成序列和真实序列之间的严格匹配,这会导致对已经是合理的翻译的过度矫正。该文用采样不仅来自真实序列的语境单词也有来自模型训练时预测序列的单词的方式来解决这些问题,预测序列是来自句子级别的最优选择。在中英和英德翻译任务上的实验结果说明该方法在多种数据集上都有明显的提升。

       该文的模型首先从预测单词中选取oracle单词并从oracle单词和真实单词中进行采样以作为语境。同时,oracle单词的选取不只是逐个单词的搜索,而且带有句子级别的评估即BLEU,这使交叉熵成对匹配的限制有了更大的灵活性。训练初始阶段,模型给予真实单词语境更高的概率 。当模型逐渐收敛时,oracle单词更频繁地被选取作为语境。在这种机制下,模型在推理时有机会学习处理错误并对可选翻译的过度矫正的恢复能力。该方法在RNN搜索模型和更强大的Transformer模型上进行证明。

                                                    方法 

oracle单词选择

       一般来说,在第 j 步预测,NMT模型需要真实单词 y_{j-1}^*作为语境单词来预测第 j 个目标单词时 y_j,因此可以选择oracle单词 y_{j-1}^{oracle}  来模拟语境单词。oracle单词应该与真实单词相似或者是同义词。使用不同的策略能产生不同的oracle单词。一种选择是单词级别的逐个搜索。此外可以扩大为beam搜索然后使用句子级别的度量来对候选翻译进行排序。

单词级别oracle

        对第 { j - 1} 个解码步,选择单词级别oracle的直接方法是以最高的概率从单词分布中选取单词。实践中可以使用简单有效地从分类分布中采样的Gumbel-Max技术(Gumbel, 1954; Maddison et al., 2014)以获得更强健的单词级别oracle。注意Gumbel噪音仅用来选择oracle,它不影响训练的损失函数。

句子级别oracle

       首先使用beam搜索获得k个最佳的候选翻译,beam搜索也可以使用Gumbel噪音来获得每个单词的生成。然后用BLEU分数评估每个翻译,并使用最高BLEU分数的翻译作为oracle句子。但有一个问题,模型每一步从真实单词和句子级别oracle采样时,两个序列应该有相同数量的单词,然而简单beam搜索解码算法并不能保证这一点。基于这一点,该文介绍强制解码方法以确保两个序列有同样的长度。

强制解码

真实单词序列的长度为\vert y^* \vert ,强制解码的目的是生成\vert y^* \vert 个单词,末尾附加句子结束(EOS)符号。因此beam搜索时当候选单词以EOS结尾且长度长于或短于\vert y^* \vert 时,会强制它生成\vert y^* \vert 个单词。

衰减采样

       在训练开始阶段,模型频繁使用y_{j-1}^{oracle}  作为y_{j-1}会导致很低的收敛率,甚至会受陷入局部最优点。另一方面,如果语境y_{j-1}仍然以大概率从真实单词y_{j-1}^*进行选取,那么模型可能在推理阶段不知道如何行动。因此真实单词的选择概率 p 不能是固定的,应该随着训练的进行逐步下降。借用但有所不同于Bengio et al.(2015)的思想,定义 p 为基于训练迭代次数 e (从0开始)的衰减函数:

p = \frac{\mu }{\mu + exp(e/\mu )}

其中\mu 是超参数。函数是严格单调递减函数。

                                  实验及结果

       该研究在NIST中文到英文和 WMT'14 英文到德文翻译任务上进行实验。实验的模型包括RNNsearch、SS-NMT(在RNN搜索基础上使用计划采样(SS)方法Bengio et al.(2015)) 、MIXER(混合了递增交叉熵强化学习的方法,句子级别度量为BLEU,平均回报由带有单层线性回归器的离线方法获得。)以及OR-NMT(该文提出的方法)。表1显示实验结果,结果显示该文提出的方法带了很大的性能提升。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,193评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,306评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,130评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,110评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,118评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,085评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,007评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,844评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,283评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,508评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,395评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,985评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,630评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,797评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,653评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,553评论 2 352

推荐阅读更多精彩内容