对偶学习

最近了解了NLP的对偶学习，几篇论文分享一下。

Dual Learning for Machine Translation

NIPS 2016

This mechanism is inspired by the following observation: any machine translation task has a dual task, e.g., English-to-French translation (primal) versus French-to-English translation (dual); the primal and dual tasks can form a closed loop, and generate informative feedback signals to train the translation models, even if without the involvement of a human labeler.

现在的机器翻译NMT系统多采用seq2seq模型，这种方法的一大缺点在于需要构建大量的平行语料库，非常耗时耗成本。本文提出了一种低资源的机器翻译模型训练方法：对偶学习（dual learning），这中方法可以更有效地应用单语料（包括源语言和目标语言），大大减少平行语料库。这种思路很直观，就是当语言A被翻译成语言B后，再将语言B翻译成语言A，这个过程是有噪声的，因此经过两次翻译后的语言A和原始语言A肯定会出现差异最小化，将差异最小化即可同时改进两个翻译模型的性能。同理，从语言B翻译到语言A再翻译到语言B也可以进行相同的过程。因此如果我们有了两个已经训练好了但不完美的翻译模型，我们只需要将两种语言的自由文本通过对偶学习的方式进行训练，就能改善两个翻译模型的性能。

算法的主要思想也借助了强化学习的思想，通过最大化reward来更新参数。假如我们现在已经有了两个翻译模型 $P(.|s;\theta_{AB})$ 和 $P(.|s;\theta_{BA})$ ，分别是将A翻译成B和将B翻译成A。同时我们还训练了两种语言的语言模型 $LM_A(.)$ 和 $LM_B(.)$ 。首先我们从语言A的语料库中选取语句 $s$ ，然后通过 $P(.|s;\theta_{AB})$ 翻译成B语言 $s_{mid}$ ，此时我们得到一个立即reward $r_1=LM_B(s_{mid})$ ，这个reward其实是衡量 $s_{mid}$ 的流畅度。然后我们将 $s_{mid}$ 重新翻译会语言A，论文中称之为重建，这部分的reward为 $r_2={\rm log}P(s|s_{mid};\theta_{BA})$ 。总reward $r = \alpha r_1 + (1 - \alpha) r_2$ ， $\alpha$ 是一个超参数。

这个算法的思路还是比较直观的，现在讲讲它的训练过程。最开始我们是没有训练好的翻译模型的，我们需要先用平行语聊训练翻译模型，然后逐渐转换到用单语料进行对偶学习。文中提到了一种soft-landing策略：刚开始的时候每个batch的一半是平行语料，一半是单语语料，此时的目标函数是翻译模型的目标函数和 $r$ 的加权和。随着训练进行逐渐增大单语料的比例，直到全是单语料。

实验结果和基于attention的NMT和pseudo-NMT进行了比较。发现在仅用10%语料的情况下，dual-NMT和前两种方法使用全语料训练的结果不相上下，单独看重建的指标，远高于前两种方法，同时在长句子翻译的表现非常优秀。对偶学习对于机器翻译任务是非常有效的。

文中也提到了还有很多对偶的任务值得探索，如：语音识别和语音合成、图片描述和图片生成、问答和问题生成、检索和关键字抽取。同时提到了对偶学习的本质是构成一个闭环，让我们能够捕捉到反馈信号，所以作者也称对偶学习为close-loop learning，该框架不拘泥与两种语言的对偶任务，还可以扩展到很多agent之间相互反馈。

Dual Supervised Learning

ICML 2017

In this work, we propose training the models of two dual tasks simultaneously, and explicitly exploiting the probabilistic correlation between them to regularize the training process.

上一篇文章只在NMT方面提出了对偶学习，这篇文章是爱监督学习下提出了对偶学习的范式：Dual Supervised learning（DSL）。

本文的出发点在于，很多对偶任务之间存在内在的概率分布联系： $P(x,y)=P(x)P(y|x;\theta_{xy})=P(y)P(x|y; \theta_{yx})$ 在传统的监督学习下，以上对偶性是无法得到保证的，本文给训练过程显式地加入了上述约束：
$\begin{align} {\rm objective\ 1}: {\rm min_{\theta_{xy}}}\ (1/n) \sum_{i=1}^n l_1(f(x_i;\theta_{xy}),y_i),\\ {\rm objective\ 2}: {\rm min_{\theta_{yx}}}\ (1/n) \sum_{i=1}^n l_2(g(y_i;\theta_{yx}),x_i),\\ s.t.\ P(x)P(y|x;\theta_{xy})=P(y)P(x|y; \theta_{yx}), \forall x,y \end{align}$
$l$ 是两个函数的差异函数， $f$ 和 $g$ 是两个对偶学习的模型本身。为了求解这个问题，使用拉格朗日乘数法，为两个目标函数增加乘数项
$l_{duality}=({\rm log}P(x)+{\rm log}P(y|x;\theta_{xy}) - {\rm log}P(y)-{\rm log}P(x|y; \theta_{yx}))^2$
然后进行训练即可。可以看出，这里中方法实际上只是在目标函数上加了一个正则项。只要能较好地估计 $P(x)$ 和 $P(y)$ ，算法就能同时提升两个对偶任务的性能，思路也比较直观。

本文在机器翻译、图像处理（图像分类和生成）、情感分析（情感分类和生成）方面做了实验，验证了方法有效性。其中后两个任务虽然是对偶的但是从左到右的信息是有损的，而模型在这两个任务上也获得了不错的效果。

Model-Level Dual Learning

ICML 2018

In this word, we propose a new learning framework, model-level dual learning, which takes duality of tasks into consideration while designing the architectures for the primal/dual models, and ties the model parameters that playing similar roles in the two tasks.

以上两篇文章都仅关注了数据上的对偶性，这篇文章从模型的角度提出了对偶学习的范式，在这种范式下，对偶任务之间能够做到参数共享。根据对偶任务的对称性文章探索了两种对偶范式：

Symmetric Model-Level Dual Learning

这种情况下 $X$ 和 $Y$ 具有相同的形式，如机器翻译。简单来说，第一篇文章中的机器翻译从 $X$ 到 $Y$ 和从 $Y$ 到 $X$ 是用了两个不同参数的模型完成的，每个组件是单向的，即：
$X \to {\rm \bf ENCODER}_{XY} \to {\rm \bf DECODER}_{XY} \to Y \to {\rm \bf ENCODER}_{YX} \to {\rm \bf DECODER}_{YX} \to X$
而从模型上对偶的机器翻译如下：
$X \leftrightarrow {\rm \bf COMPONENT}_X \leftrightarrow {\rm \bf COMPONENT}_Y \leftrightarrow Y$
这里的整个模型只有两个双向组件，以 ${\rm \bf COMPONENT}_X$ 为例，如果数据从左侧进入，则它为编码器，若从右侧进入，则它为解码器， ${\rm \bf COMPONENT}_Y$ 同理。这样就实现了之前 ${\rm \bf ENCODER}_{XY}$ 和 ${\rm \bf DECODER}_{YX}$ 、以及 ${\rm \bf DECODER}_{XY}$ 和 ${\rm \bf ENCODER}_{YX}$ 的参数共享。由于编码器解码器都采用一个模型，只需要形式上一致即可。这里的组建可以采用RNN、CNN或Transformer等。

Asymmetric Model-Level Dual Learning

这中情况下 $X$ 和 $Y$ 不具有相同的形式或语义，如情感分析。但是还是可以相同的组件上面相同的组件描述，这里 ${\rm \bf COMPONENT}_X$ 将 $X$ 编码成语义向量，然后 ${\rm \bf COMPONENT}_Y$ 是分类层。它的对偶任务首先将标签的embedding（文中没有详细说明，猜测是随机干扰，在训练时可能是前向传播的结果）通过 ${\rm \bf COMPONENT}_Y$ 映射到语义向量，然后用 ${\rm \bf COMPONENT}_X$ 生成。

可以看出，只要组件的两个方向计算的数学形式一致，就可以用于对偶学习。模型层面的对偶学习有几点好处：第一，减少了参数总量；其次，给定一个训练pair $(x,y)$ ，实际上参数训练了两次，而且从两个不同的方向训练的，实际上是资源利用了两次， $x$ 和 $y$ 都参与了训练。

最后文章在机器翻译和情感分析两个任务上验证了模型的有效性。实验结果表明效果优于之前的DSL框架以及其他模型。

对偶学习

Dual Learning for Machine Translation

Dual Supervised Learning

Model-Level Dual Learning

相关阅读更多精彩内容

友情链接更多精彩内容