最新研究进展：关于机器翻译领域，这4个要点不得不关注

©NLP论文解读原创•作者 |FLIPPED

研究方向 | 机器翻译

导读

机器翻译是关于如何使用计算机将一种语言翻译成另一种语言的研究。

在方法论上，机器翻译的方法主要分为两类：基于规则的方法和基于语料库的方法。基于规则的机器翻译 (RBMT) 方法使用双语词典和手动编写的规则将源语言文本翻译成目标语言文本，然而手动编写规则是十分繁琐且难以维护的。

随着深度学习技术的发展，基于语料库方法之一的神经机器翻译（NMT)逐渐取代了早期基于规则的机器翻译方法，众多模型包括非自回归模型、无监督 NMT 模型以及 NMT 上的预训练模型（基于bert）等不断涌现。

尤其随着sequence to sequence 的翻译架构的提出和transformer模型的成熟与应用，神经机器翻译方法的翻译质量和效率得到了巨大的提升。本文将针对神经机器翻译目前发展的热点领域，分享最新的研究进展。

图1.基于注意力机制的神经网络翻译

低资源条件下的机器翻译

在现实世界中，部分小语种的机器翻译问题面临着极大的挑战。由于缺乏大量的平行语料，模型很难有效的学习到对应语言之间的映射关系。在这种情况下，采用迭代的back translation[1]和 self-training来扩充训练数据是一种行之有效的方法。

Back-translation通常训练一个从目标语言翻译成源语言的神经网络，单独利用目标语言的语料来得到源语言对应的文本，把这样得到的pair同时加到已有平行语料中一起训练。

Self-training则首先利用平行语料来训练一个正向的神经网络，然后将大量无标注的源语言数据翻译至目标语言，从而得到带噪的平行语料。将两者生成的语料混合重新训练一个更加准确且鲁棒的模型，进而将上述的过程迭代重复多次即可得到大量的合成数据。

在实际应用中,往往还需要结合质量评估系统（quality estimation system)进一步对合成数据进行清洗过滤，然而对于很多低资源的语言来说，这种评估系统的建立十分困难。

为了解决这一问题，有学者提出了一种数据挑选方法[2]来替代原始的评估系统。该方法根据测试集的领域匹配程度，可对原始的单一语料进行相关性排序，在每一轮迭代中选择最匹配的句子去生成合成数据。采用这种数据挑选的方法，不仅提升了数据合成的效率，并且取得了相似甚至超过原始质量评估系统的翻译结果。

图2.用于self-training的数据选择方法

同声传译

Speech-to-text 的语音翻译问题相比于传统text-to-text的机器翻译问题更加具有挑战。首先source端语音到target文本之间存在着跨模态的语言映射，同时两种语言的不同进一步增加了学习这种映射之间的难度。

因此对于同声传译问题，在中高延迟条件下的模型主要基于级联系统，而级联系统的整个翻译过程涉及到两步预测，一方面增加了模型预测的时间进而造成较高的延迟，另一方面第一步预测结果的准确性将直接影响第二步文本翻译的质量，造成了错误的传播和叠加。

目前基于端到端的语音翻译模型受到了越来越多的关注，随着emformer[3]等模型的提出，长距离依赖的上下文信息可以被压缩到一个增强的存储器中（memory bank），为低延迟条件下的流式解码提供了方便。

目前同传大都采用wait-k[4]的策略进行解码，仍然存在由于重复编码导致的训练慢，以及缺少对未来信息建模的问题。此外如何通过改进wait-k使得模型智能决定解码时机也是目前解决端到端语音翻译面临的巨大挑战。

图3.级联系统示意图

图4 Wait-k解码流程

one-to-many 多语言翻译

随着机器翻译的不断发展，多语言翻译逐渐受到了更多的关注，其中将一种源语言同时翻译成多种不同的目标语言是多语言翻译最常见的场景之一。相对于one-to-one的翻译模式，one-to-many的需求更贴合实际情况且更具商用价值。

解决这种多任务学习的通用框架如图5所示，首先通过大量的源语言数据训练一个共享的encoder, 然后根据不同的目标语言训练各自独立的decoder。然而这类方法在解码过程中不能充分利用翻译模型信息，如语内和语间的未来信息，因此可能会产生一些unbalanced output。

此外，尽管采用了多个decoder的模型构造，但在实际解码过程中，同一时刻只能针对一对语言的decoder进行解码，效率较低。在最新的研究中，有学者提出了同步交互式多语言神经机器翻译的新方法。

通过在解码的过程中有效利用到所有待翻目标语言的当前和未来的信息，它不仅能够同时产生多个目标语言翻译结果，并且相比于目前其他双语模型取得了更优的翻译结果。

图5. one-to-many多任务学习的通用框架

图6. 利用不同解码信息的多语言交互式解码框架[5]

模型的压缩与加速

为了提升机器翻译的性能，以transformer为主的翻译模型往往需要更深的网络以及更大的词表，然而这样庞大的计算模型不仅极大的增加了训练的代价和时间，也给模型的终端部署造成了巨大的困难。Partial Vector Quantization (P-VQ)[6]为轻量化和加速计算提供了一种新的解决方法。

首先将原始的词嵌入矩阵拆分为两个低维的矩阵，一个可共享一个独占。通过部分矢量量化的方法将共享的矩阵进行压缩，保持独占的矩阵不变以保持每个单词的唯一性，通过这种操作可极大减小词嵌入矩阵所占的存储空间。

同时在softmax层计算每个单词的概率分布时，将大多数的乘法操作转换为查找操作，从而显著加快计算速度。GPKD[7]方法从压缩模型的角度提出了新的解决方法。传统的深层transformer模型不仅计算昂贵而且极大消耗资源，该方法提出了一种新的基于group-permutation的知识蒸馏方法来将深层模型压缩为浅层模型。

为了进一步增强性能，文章还提出了一种Skipping Sub-Layer的正则化方法，通过随机删除某一子层进而增强扰动训练，两种方法均作用于encoder端。在多个基准（benchmark）上的实验结果验证了两种方法有效性。采用GPKD压缩模型比深度模型浅8倍，而BLEU几乎没有损失，这也为工业化的生产使用提供了可能。

图7 GPKD方法

本文简要介绍了神经机器翻译部分领域的研究进展，可以看出尽管MT已经取得了很大的进步，但仍然有不少的问题需要解决。首先，MT需要更好的评价指标来评估真正重要的东西，尽管BLEU作为常用的评价指标已经能够对翻译的完整与准确性做出客观的评价，但在很多应用场景中可能没有标准的译文，或是在同传问题上还有必要考虑延迟的奖惩。

其次，MT 的鲁棒性需要进一步提高。有时源语言的细微变化（例如单词或标点符号）可能会导致翻译发生巨大变化。但是人类在翻译时具有很强的容错能力，可以灵活地处理各种不规范的语言现象和错误。

最后，NMT 方法在资源匮乏的语言对和领域中面临着严重的数据稀疏问题。目前的MT系统往往使用数千万甚至数亿句句对数据进行训练，否则翻译质量会很差，然而人类却能从少数样本中学习。

尽管已经提出了许多数据增强方法、多任务学习方法和预训练方法来缓解这个问题，但如何提高低资源语言对的翻译质量仍然是一个悬而未决的问题。综上所述，实现高质量的MT还有很长的路要走，未来有必要开发能够结合符号规则、知识和神经网络的新方法，以进一步提高翻译质量。

参考文献：

[1] Liao B, Khadivi S, Hewavitharana S. Back-translation for Large-Scale Multilingual Machine Translation[J]. arXiv preprint arXiv:2109.08712, 2021.

[2] Abdulmumin I, Galadanci B S, Ahmad I S, et al. Data Selection as an alternative to Quality Estimation in Self-Learning for Low Resource Neural Machine Translation[J].

[3] Shi Y, Wang Y, Wu C, et al. Emformer: Efficient memory transformer based acoustic model for low latency streaming speech recognition[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 6783-6787.

[4] Elbayad M, Besacier L, Verbeek J. Efficient wait-k models for simultaneous machine translation[J]. arXiv preprint arXiv:2005.08595, 2020.

[5] He H, Wang Q, Yu Z, et al. Synchronous Interactive Decoding for Multilingual Neural Machine Translation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(14): 12981-12988.

[6] Zhang F, Tu M, Yan J. Accelerating Neural Machine Translation with Partial Word Embedding Compression[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(16): 14356-14364.

[7] Li B, Wang Z, Liu H, et al. Learning light-weight translation models from deep transformer[J]. arXiv preprint arXiv:2012.13866, 2020.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,245评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,749评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,960评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,575评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,668评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,670评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,664评论 3赞 415
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,422评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,864评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,178评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,340评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,015评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,646评论 3赞 323
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,265评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,494评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,261评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,206评论 2赞 352

最新研究进展：关于机器翻译领域，这4个要点不得不关注

推荐阅读更多精彩内容