斯坦福的Christopher D. Manning团队在2015年提出基于注意力的机器翻译模型:
Effective Approaches to Attention-based Neural Machine Translation
Minh-Thang Luong, Hieu Pham, Christopher D. Manning
EMNLP 2015 camera-ready version
原文:https://arxiv.org/abs/1508.04025v2 https://readpaper.com/paper/1902237438
摘要:注意力机制已被用于神经机器翻译(NMT),在翻译过程中选择性地注意源句子的部分。然而,探索基于注意力的NMT的有用架构的工作很少。本文研究了两类简单而有效的注意机制:一种是始终注意所有源词的全局方法,另一种是一次只注意源词子集的局部方法。我们证明了这两种方法在两个方向的英语-德语之间的WMT翻译任务中的有效性。我们的注意力NMT比非注意力系统提供高达5.0 BLEU点的提升,而非注意力系统已经采用了已知的技术,如drop out。对于英语到德语的方向,我们已经建立了WMT'14的23.0 BLEU和WMT'15的25.9 BLEU的最新成果。我们的深入分析揭示了哪些架构是最好的。开源在:http://nlp.stanford.edu/projects/nmt
1 引言
神经机器翻译(NMT)最近显示出了可喜的成果,在大规模翻译任务中实现了最先进的性能,如从英译法文(Luun等人,2015)和英语到德文(Jein等人,2015)。NMT很有吸引力,因为它需要最少的领域知识,而且概念上很简单:Luong等人(2015)的模型通读所有源词,直到达到句末符号<eos>。然后它开始一次发射一个目标字,如图1所示。NMT通常是一个以端到端方式训练的大型神经网络,并且能够很好地推广到很长的单词序列。这意味着模型不必像标准机器翻译那样显式地存储巨大的短语表和语言模型;因此,NMT的内存占用很小。最后,与标准MT中高度复杂的解码器不同,实现NMT解码器很容易(Koehn等人,2003)。
同时,“注意”的概念最近在训练神经网络中得到了普及,使模型能够学习不同模式之间的对齐,例如,动态控制问题中图像对象和代理行为之间的对齐(Mnih等人,2014年)或者在图像标题生成任务中图片的视觉特征与其文本描述之间(Xu等人,2015)。在NMT的背景下,Bahdanaau等人(2015)成功地应用了这种注意机制来联合翻译和对齐单词。就我们所知,还没有任何其他研究探索将基于注意力的架构用于NMT的工作。在这项工作中,我们设计了两种新颖的基于注意的模型:一种是注意所有源词的全局方法,另一种是一次只考虑源词子集的局部方法。前一种方法类似于(Bahdanaau et al.,2015)的模型,但在架构上要简单得多。后者可以被视为(Xu等人,2015年)中提出的硬注意模型和软注意模型之间有趣的结合:它在计算上比全局模型或软注意模型便宜;同时,与硬注意不同的是,局部注意是可微的,因此更易于实现和训练(注释2)。此外,我们还研究了基于注意的模型的各种对齐功能。
(注释2:Gregor等人(2015)最近的一项工作与我们的局部关注非常相似,并应用于图像生成任务。然而,正如我们稍后详述的,我们的模型简单得多,可以为NMT实现良好的性能。)
实验证明,我们的两种方法在英语-德语的WMT翻译任务中都是有效的。我们的注意力模型产生了高达5.0 BLEU的提升,而非注意力系统已经包含了已知的技术,如drop out。对于英语到德语的翻译,我们为WMT'14和WMT'15实现了新的最先进的(SOTA)结果,比以前的SOTA系统(由NMT模型和n-gram LM重新评级支持)高出1.0 BLEU以上。我们进行广泛的分析,从学习、处理长句的能力、注意结构的选择、对齐质量和翻译输出等方面评估我们的模型
2 神经机器翻译
神经机器翻译(NMT)系统是一种神经网络,它直接建模翻译源语句到目标句的条件概率。(注释3:假设所有句子都以一个特殊的“句子结束”标记<eos>结束。)NMT的基本形式由两部分组成:(a)编码器,它将每个源语句计算为一个表示;(b)解码器,它一次生成一个目标词,因此将条件概率分解为:
在解码器中对这种分解建模( decomposition)的自然选择是使用递归神经网络(RNN)架构,这是大多数最近的NMT工作(如Kalchbrenner和Blunsom,2013;Sutskever等人,2014;Cho等人,2014;Bahdanaau等人,2015;Luong等人,2015;Jean等人,2015)的共同点。然而,它们在解码器使用哪种RNN架构以及编码器如何计算源语句表示方面有所不同。
Kalchbrenner和Blunsom(2013)使用带有标准隐藏单元的RNN作为解码器,使用卷积神经网络对源语句表示进行编码。另一方面,Sutskever et al.(2014)和Luong et al.(2015)都将多层RNN与编码器和解码器的长-短期记忆单元(LSTM)隐藏单元堆叠在一起。Cho等人(2014年)、Bahdanau等人(2015年)和Jean等人(2015年)都采用了不同版本的RNN,这两个组件都采用了LSTM启发的隐藏单元,即选通循环单元(GRU)。(注释4:除了后两个工程使用双向RNN作为编码器外,他们都使用了单个RNN层。)
更具体地,可以将解码每个词的概率参数化为:
其中是输出vocabulary-sized 向量的变换函数。(注释5:可以向提供其他输入,如当前预测的单词,如(Bahdanau等人,2015年))此处,是RNN隐藏单元,计算为:
其中根据给定先前隐藏状态计算当前隐藏状态,可以是普通RNN单元、GRU单元或LSTM单元。在(Kalchbrenner和Blunsom,2013;Sutskever等人,2014;Cho等人,2014;Luong等人,2015)中,源表示s仅用于初始化解码器隐藏状态一次。另一方面,在(Bahdanaau et al.,2015;Jean et al.,2015)和这项工作中,实际上意味着在整个翻译过程中都会参考的一组源隐藏状态。这种方法被称为注意机制,我们将在下面讨论。
在这项工作中,继(Sutskever et al.,2014;Luong et al.,2015),我们将堆叠LSTM架构用于NMT系统,如图1所示。我们使用(Zaremba等人,2015年)中定义的LSTM单元。我们的训练目标如下:
是我们的平行训练语料库。
3 基于注意的模型
本节介绍了我们的各种基于注意力的模型,这些模型分为两大类:全局和局部。这些类别的区别在于“注意力”是放在所有的源位置上,还是只放在少数几个源位置上。我们分别在图2和图3中说明了这两种模型类型。
这两种模型的共同点是,在解码阶段的每个时间步,两种方法都首先将堆叠LSTM顶层的隐藏状态作为输入。然后,我们的目标是导出一个上下文向量,它捕获相关的源语义句这一侧的信息(歧义:它捕获源语义句这一侧的相关性信息),以帮助预测当前的目标词。虽然这些模型在计算上下文向量的方式上有所不同,但它们具有相同的后续步骤。
(原文:Common to these two types of models is the fact that at each time step t in the decoding phase, both approaches first take as input the hidden state ht at the top layer of a stacking LSTM. The goal is then to derive a context vector ct that captures relevant source-side information to help predict the current target word yt. While these models differ in how the context vector ct is derived, they share the same subsequent steps.)
具体地说,给定目标隐藏状态和源端上下文向量,我们使用一个简单的连接层来组合来自这两个向量的信息,以产生如下的注意隐藏状态:
然后通过softmax层馈送注意向量,以产生预测分布,公式如下:
现在我们详细介绍了每类模型如何计算源端上下文向量。
3.1 全局注意
全局注意力模型的思想是在推导上下文向量时考虑编码器的所有隐藏状态。在此模型类型中,通过将当前目标隐藏状态与每个源隐藏状态比较,得出可变长度对齐向量,其大小等于源侧的时间步数:
这里,score被指定为基于内容(content-based)的函数,我们考虑三种不同的备选方案:
此外,在我们早期尝试建立基于注意力的模型时,我们使用了一个基于位置(a location-based)的函数,其中对齐分数仅从目标隐藏状态计算,如下所示:
给定对齐向量作为权重,上下文向量计算为所有源隐藏状态的加权平均值(注释6:公式(9)意味着所有对齐向量的长度相同。对于短句,我们只使用的前面部分(top part),对于长句,我们忽略接近结尾的单词)
与(Bahdanaau等人,2015年)的比较——虽然我们的全局注意方法在精神上与Bahdanaau等人(2015年)提出的模型相似,但有几个关键差异反映了我们如何从原始模型简化和概括。首先,我们只需在编码器和解码器的顶部LSTM层使用隐藏状态,如图2所示。另一方面,Bahdanau等人(2015年)在双向编码器中使用前向和后向源隐藏状态,在非堆叠单向解码器中使用目标隐藏状态。第二,我们的计算路径更简单;我们的计算顺序是,然后根据公式(5)、公式(6)和图2进行预测。另一方面,在任何时间步,Bahdanaau等人(2015)都从先前的隐藏状态构建,在进行预测之前,它依次经历了深度输出和最大输出层(a deep-output and a maxout layer)。(注释7:我们将在第3.3节中再次提及这一差异。)最后,Bahdanau等人(2015年)仅试验了一种对齐函数,即concat product;然而,我们后来证明,其他替代方案更好。
(原文:Comparison to (Bahdanau et al., 2015) – While our global attention approach is similar in spirit to the model proposed by Bahdanau et al. (2015), there are several key differences which reflect how we have both simplified and generalized from the original model. First, we simply use hidden states at the top LSTM layers in both the encoder and decoder as illustrated in Figure 2. Bahdanau et al. (2015), on the other hand, use the concatenation of the forward and backward source hidden states in the bi-directional encoder and target hidden states in their non-stacking unidirectional decoder. Second, our computation path is simpler; we go from ht → at → ct → h˜t then make a prediction as detailed in Eq. (5), Eq. (6), and Figure 2. On the other hand, at any time t, Bahdanau et al. (2015) build from the previous hidden state ht−1 → at → ct → ht , which, in turn, goes through a deep-output and a maxout layer before making predictions.7 Lastly, Bahdanau et al. (2015) only experimented with one alignment function, the concat product; whereas we show later that the other alternatives are better.)
3.2 局部注意
全局注意有一个缺点,即它必须注意每个目标单词源端的所有单词,这很昂贵,并且可能导致翻译较长的序列(例如段落或文档)不切实际。为了解决这一缺陷,我们提出了一种局部注意机制,该机制选择只注意每个目标词源位置的一小部分。
该模型的灵感来自Xu等人(2015)提出的软注意模型和硬注意模型之间的权衡,以解决图像标题生成任务。在他们的工作中,软注意指的是全局注意方法,即在源图像的所有图块上“软”放置权重。另一方面,硬注意一次只选择图像的一块区域。虽然在推理时成本较低,但硬注意模型是不可微的,需要更复杂的技术,如方差减少或强化学习来训练。
我们的局部注意机制选择性地集中在一个小的上下文窗口上,并且是可微分的。这种方法的优点是避免了软注意所带来的昂贵计算,同时比硬注意方法更易于训练。在具体细节中,该模型首先在时刻为每个目标字生成对齐位置。然后,将上下文向量计算为窗口内源隐藏状态集的加权平均值;D是根据经验选择的(注释8:如果窗口越过句子边界,我们只是忽略了外部部分,并考虑窗口中的单词。)与全局方法不同,局部对齐向量现在是固定维的,即。我们考虑如下两个模型的变型。
Monotonic对齐(local-m)–这里,我们在假设源序列和目标序列大致单调对齐,简单地设置,并且对齐向量根据式(7)定义。这个模型是可微的。(注释9:local-m与全局模型相同,只是向量的长度固定且较短。)
Predictive 对齐(local-p)–我们的模型预测对齐位置,而不是假设单调对齐,如下所示:
这里,和是模型参数,用于预测位置;然而,是源语句的长度。由于sigmoid,。然后,我们放置一个以为中心的高斯分布,以利于附近的对齐点。具体而言,我们的路线权重现在定义为:
我们使用与式(7)相同的对齐函数,根据经验,标准偏差设置为。需要注意的是,是一个真正的数字(real nummber);而(未加粗,和前面的隐藏向量不同含义)是以为中心的窗口内的整数。该模型也是可微的(注释10)。
(注释10:local-p与local-m模型类似,不同之处在于我们动态计算,并使用高斯分布来修改原始对齐权重,如等式(11)所示。通过利用来计算,我们可以计算和的反向传播梯度。)
与(Gregor等人,2015年)的比较——值得指出的是,最近,Gregor等人(2015年)提出了一种选择性注意机制,非常类似于我们的局部注意,用于图像生成任务。他们的方法允许模型选择不同位置和不同缩放下的图像块。相反,我们对所有目标位置使用相同的“缩放”,这大大简化了公式,并且仍然实现了良好的性能。
3.3 输入馈送方法
在我们提出的全局方法和局部方法中,注意力决策是独立进行的(the attentional decisions are made independently),这是次优的。然而,在标准机器翻译中,通常在翻译过程中维护覆盖集,以跟踪哪些源词已被翻译。同样,在注意NMT中,一致性决策应该考虑过去的一致性信息。为了解决这个问题,我们提出了一种输入馈送方法,在这种方法中,注意向量被用作下一时间步的输入,如图4所示。这种连接的效果有两个方面:(a)我们希望让模型充分了解以前的alignment选择;(b)我们创建了一个在水平和垂直上都非常深入的网络。
(原文: In our proposed global and local approaches, the attentional decisions are made independently, which is suboptimal. Whereas, in standard MT, a coverage set is often maintained during the translation process to keep track of which source words have been translated. Likewise, in attentional NMTs, alignment decisions should be made jointly taking into account past alignment information. To address that, we propose an inputfeeding approach in which attentional vectors h˜t are used as inputs to the next time steps as illustrated in Figure 4. The effects of having such connections are two-fold: (a) we hope to make the model fully aware of previous alignment choices and (b) we create a very deep network spanning both horizontally and vertically.)
与其他工作相比——值得一提的是,Bahdanau等人(2015年)在构建后续隐藏状态时使用了与我们的类似的上下文向量,这可能实现“覆盖(coverage)”效果。然而,还没有任何关于这种连接是否像在这项工作中所做的那样有用的分析。而且,我们的方法更容易推广(general);如图4所示,它可以应用于一般的结构,包括非注意模型。
Xu等人(2015年)提出了一种双注意方法,在训练目标中增加了一个额外的约束,以确保模型在字幕生成过程中对图像的所有部分给予同等注意。这样的约束对于捕获我们前面提到的NMT中的覆盖集效果也很有用。然而,我们选择使用 input-feeding法,因为它为模型提供了灵活性,可以决定它认为合适的任何注意约束。
4 实验
我们评估了我们的模型在英语-德语双向WMT翻译任务中的有效性。newstest2013(3000句)用作选择超参数的开发集。2014年新闻测试(2737句)和2015年新闻测试(2169句),微分大小写的BLEU(Papineni et al.,2002)报告了翻译表现。接下来(Luong等人,2015年),我们报告了使用两种BLEU的翻译质量:(a)标记化11 BLEU与现有NMT工作相当,(b)NIST12 BLEU与WMT结果相当。
4.1 训练详情
我们所有的模型都是在WMT'14训练数据上训练的,该数据由450万个句子对组成(11600万个英语单词,11000万个德语单词)。与(Jean等人,2015年)类似,我们将我们的词汇限制为两种语言中最常见的前50K个单词。不在这些入围词汇表中的单词将转换为通用标记<unk>。
在训练我们的NMT系统时,接下来(Bahdanaau et al.,2015;Jean et al.,2015),我们筛选出长度超过50个单词的句子对,并在继续时对小批量进行洗牌。我们的堆叠LSTM模型有4层,每层有1000个单元和1000维嵌入。我们遵循(Sutskever et al.,2014;Luong et al.,2015)在类似设置下训练NMT:(a)我们的参数在[−0.1,0.1],(b)我们使用普通SGD进行10个阶段的训练,(c)采用简单的学习率计划-我们从学习率1开始;在5个阶段后,我们开始在每个阶段将学习率减半,(d)我们的小批量大小为128,(e)当其范数超过5时,标准化梯度将重新缩放。此外,我们还根据(Zaremba等人,2015年)的建议,在LSTM中使用drop out。对于drop out模型,我们训练12个阶段,8个阶段后开始将学习率减半。我们的代码是在MATLAB中实现的。当在单个GPU设备Tesla K40上运行时,我们达到每秒1K目标字的速度。完全训练一个模型需要7-10天。
4.2 英语-德语结果
我们将英国人任务中的NMT系统与其他各种系统进行比较。其中包括WMT'14(Buck et al.,2014)中先前最先进的(SOTA)系统,这是一个基于短语的系统,其语言模型是在一个巨大的单语文本(通用爬网语料库)上训练的。对于端到端神经机器翻译系统,据我们所知,(Jein等人,2015)是唯一的实验与这种语言对和目前的SOTA系统。我们只展示了一些注意力模型的结果,后面将在第5节分析其余的。
如表1所示,我们实现了渐进式改进,当(a)按照(Sutskever et al.,2014)中的建议,将源语句反转,带来+1.3 BLEU的改进,以及(b)使用drop out,带来+1.4 BLEU的改进。最重要的是,(c)全局注意力方法显著提高了+2.8 BLEU,使我们的模型略优于Bahdanau等人(2015)(row RNNSearch)的基本注意力系统。当(d)使用输入feeding方法时,我们获得了+1.3 BLEU的另一个显著收益,并优于他们的系统。有趣的是,观察到之前在(Luong et al.,2015)中报告的困惑与翻译质量密切相关的趋势。
具有预测性对齐的局部注意模型(row local-p)被证明更好,使我们在全局注意模型的基础上进一步改进了+0.9 BLEU。使用(Luong et al.,2015;Jean et al.,2015)中提出的未知替代技术,获得了+1.9 BLEU的另一个不错的增益,这表明我们的注意力模型确实为未知的工作学习了有用的对齐。最后,通过整合8种不同设置的不同模型,例如,使用不同的注意力方法,有无drop out等,我们能够实现新的SOTA结果23.0 BLEU,比现有的最佳系统(Jean等人,2015)高出+1.4。
WMT'15的最新结果——尽管我们的模型是在WMT'14上训练的,WMT'14数据稍少,但我们在newstest2015上测试了它们,以证明它们可以很好地推广到不同的测试集。如表2所示,我们的最佳系统建立了25.9 BLEU的新SOTA性能,优于现有的最佳系统,该系统由NMT和5gramLM reranker支持,BLEU为+1.0。
4.3 德语-英语结果
我们为WMT'15从德语到英语的翻译任务进行了一组类似的实验。虽然我们的系统尚未达到SOTA系统的性能,但我们已经证明了我们的方法的有效性,并在BLEU方面取得了巨大的进步,如表3所示。注意机制为我们提供了+2.2 BLEU增益,除此之外,我们还通过输入feeding方法获得了高达+1.0 BLEU的另一个提升。使用更好的对齐功能,基于内容的点积1和drop out产生+2.7 BLEU的另一个增益。最后,在应用未知词替换技术时,我们额外使用了+2.1 BLEU,证明了注意在对齐稀有词时的有用性。随着更多更好的模型得到训练,我们希望在不久的将来和最先进模型缩小差距。
5 分析
我们进行了广泛的分析,以更好地了解我们的学习模式、处理长句的能力、注意力结构的选择以及对齐质量。此处考虑的所有型号均为在newstest2014上测试的英德NMT系统。
5.1 学习曲线
我们比较了表1中列出的模型。在图5中可以看到非注意模型和注意模型之间的清晰分离。输入馈送法和局部注意模型也证明了它们降低测试成本的能力。观察drop out(蓝色+曲线)的影响很有趣:它比其他非drop out模型学习速度慢,但随着时间的推移,它在最小化测试错误方面变得更加稳健。
5.2 翻译长句的效果
我们遵循(Bahdanau等人,2015)将长度相似的句子分组,并计算每组的BLEU分数。如图6所示,我们的注意模式在处理长句时比其他非注意模式更有效:翻译质量不会随着句子变长而降低。我们的最佳模型(蓝色+曲线)在所有长度的桶中都优于所有其他系统。
5.3 注意结构的选择
我们研究了不同的注意模型(全局、局部-m、局部-p)和不同的对齐功能(location、dot、general、concat),如第3节所述。由于资源有限,我们无法运行所有可能的组合。然而,表4中的结果确实给了我们一些关于不同选择的想法。基于位置的函数无法学习良好的对齐:与使用其他对齐函数相比,全局(位置)模型在执行未知词替换时只能获得较小的增益。对于基于内容的对齐函数,我们的实现在concat中没有产生良好的性能,应该进行更多的分析以更好地理解原因。(注释13:使用concat, 不同模型达到的困惑度是6.7 (global), 7.1 (local-m), and 7.1 (local-p)。)有趣的是,观察到dot对全局注意效果很好,而general对局部注意效果更好。在不同的注意模型中,具有预测对齐的局部注意模型(local-p)在困惑和BLEU分数方面都是最好的。
5.4 对齐质量
注意模式的一个bi-product是单词对齐(A bi-product of attentional models are word alignments)。虽然(Bahdanaau等人,2015年)试图将一些示例句子的对齐方式可视化,或观察翻译质量的提高,以此作为工作注意模型的指标,但没有任何工作将学习到的对齐方式作为一个整体进行评估。相反,我们开始使用对齐错误率(AER)度量来评估对齐质量。鉴于RWTH提供的508个英语-德语-欧罗巴句子的黄金对齐数据,我们“强制”解码我们的注意力模型,以产生与参考相符的翻译。我们仅通过选择每个目标词具有最高对齐权重的源词来提取一对一对齐。然而,如表5所示,我们能够获得与Berkeley aligner获得的一对多比对结果相当的AER分数(Liang等人,2006)。(注释14:我们将508个句子对与来自WMT的1M个句子对连接起来,并运行Berkeley对齐器)
我们还发现,局部注意模型产生的对齐比全局模型获得的AER低。组合模型获得的AER虽然很好,但并不比local-m AER好,这表明了众所周知的观察结果,即AER和翻译分数没有很好的相关性(Fraser和Marcu,2007)。在附录B中,我们展示了一些对齐可视化。
6 结论
在本文中,我们提出了两种简单而有效的神经机器翻译注意机制:全局方法总是注意所有源位置,局部方法一次只注意源位置的子集。我们在WMT的英语-德语双向翻译任务中测试了我们的模型的有效性。我们基于注意力的NMT与非注意力模型相比,获得了高达5.0 BLEU的巨大收益,而非注意力模型已经结合了drop out等已知技术。对于英语到德语的翻译方向,我们的best系统已经为WMT'14和WMT'15建立了新的最先进的结果,在NMT模型和n-gram LM rerankers的支持下,其表现优于现有的best系统。
我们比较了各种对齐功能,并阐明了哪些功能最适合于哪些注意模式。我们的分析表明,基于注意的NMT模型在许多情况下优于非注意的NMT模型,例如在翻译姓名和处理长句方面。最后,我们首先使用对齐错误率评估模型的对齐质量。
致谢
我们衷心感谢彭博社(Bloomberg L.P.)捐赠的支持以及英伟达公司(NVIDIA Corporation)捐赠的特斯拉K40 GPU。我们感谢Andrew Ng和他的团队成员以及斯坦福研究计算人员让我们使用他们的计算资源。我们特别感谢Russell Stewart对注意力模型的宝贵评论。最后但并非最不重要的一点是,我们感谢Quoc Le、Ilya Sutskever、Oriol Vinyals、Michael Kayser、Panupong Pasupat、Kelvin Gu、斯坦福NLP小组的成员以及匿名评论员的宝贵评论和反馈。
A 翻译样本
我们在表6中给出了两个方向的翻译示例,每个方向一个短句和一个长句。从短句例子中,观察注意模式在正确翻译姓名中的作用是很有趣的。非注意模型虽然从语言模型的角度产生了合理的名称,但与基于注意的NMT系统一样,缺乏与源端的直接联系来进行正确的翻译。注意模型也证明了它们在翻译长句方面的优势,如中所述(Bahdanaau等人,2015)。
B 对齐可视化
我们在图7中可视化了不同注意力模型产生的对齐权重。局部注意模型的对齐可视化比全局注意模型的对齐可视化更清晰。这种对比符合我们的预期,因为局部模型每次只关注单词的子集。此外,由于我们将英语翻译成德语,并将源英语的意义颠倒过来,因此,在局部模型中,白色在单词“reality”和“.”处大步移动,揭示了一种有趣的访问模式:它倾向于引用源序列的开头。