LASER:基于zero-shot的大规模多语言预训练方法

<Paper Reading Series>

本文基于2018 Facebook AI Research的文章:Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

是Facebook2018年12月提出的跨语言零样本迁移的LASER框架的实现“说明书”。

  • 研究背景
  • 前人的解决方式
  • 模型核心思想
  • 具体实现细节
  • 实验结果
  • 结论

研究背景

最近几年基于大规模的unlabeled data进行预训练,然后应用于下游NLP任务的思想得到了很大的发展,如word embedding和BERT等,都是基于预训练。
然而,这些模型都是针对某种语言训练独立的语言模型,无法应用于跨语言场景。

Nevertheless, all these works learn a sepa- rate model for each language and are thus unable to leverage information across different languages, greatly limiting their potential performance for low-resource languages.

前人的解决方式

TODO

模型核心思想

提出了一种跨语言的通用句子编码方式。
这么做的目的是:

  • 希望那些资源有限的语言可以从联合语言的训练中学到通用的知识。
    文章通过一个编码器将所有语言都映射到一个共享的特征空间。不同语言中语义相近的句子在特征空间距离更近(类似Word2Vec)。


图左展示了一个单语嵌入空间;图右则展示了 LASER 的方法——将所有语言嵌入到一个独立的共享空间中。

Dataset:模型通过完全免费的平行语料库进行训练。

Our system is trained on freely available parallel texts only.

具体实现细节

模型结构如下:



方法建立在于神经机器翻译相同的底层技术上:编码器/解码器方法,也就是序列到序列处理。Facebook 为所有的输出语言使用一个共享编码器,并使用一个共享解码器来生成输出语言。
编码器由n层BiLSTM组成,其中输入的embedding层采用了BPE(Byte Pair Encoding) 的方式。

对于BPE,这是2016年Neural Machine Translation of Rare Words with Subword Units中提出的基于subword来生成词典的方法。
核心思想是综合word-level和char-level的优势,从语料中学习到所有词里边频次高的字符串子串。然后把这些频次高的字符串子串收集起来形成一个字典。这个字典里边,既存在char-level级别的子串,也存在word-level级别的子串。然后把这个字典用于模型的训练。
Byte Pair Encoding 以单个字符为单位的词典开始,通过迭代,用出现频次高的bi-gram字符串替换单个的字符,因此对于高频词来说,因为出现的次数足够多,最终编码的单元还是word-level,而对于OOV问题中的生僻单词,编码单元会是character-level,不会再被标记为#UNK。具体的实现原理可以参照论文中给出的python代码理解。

论文将所有语料的集合训练一个联合BPE词典,迭代50k次,获得的词典认为已经不具有language-specific的特征,将BPE embedding输入编码器,获得整个句子的embedding表示,此时这个句子已经无法区分是来自哪个语言了。
解码器需要被告知生成哪种语言,同时获取一个在每个时间步都连接到输入和句子嵌入上的语言标识嵌入。由于编码器没有指示输入语言的显式信号,因而该方法鼓励它去学习与语言无关的表示。Facebook 在与英语和西班牙语对齐的公共平行数据中的 2.23 亿个句子上训练他们的系统,对于每个小批量,他们都随机选择一种输入语言,并训练系统将句子翻译成英语或者西班牙语。大多数语言都与目标语言保持对齐,不过并不要求它们必须对齐。

实验结果

该模型在跨语言自然语言推理(NLI)上获得了出色的结果,其在这一任务上的表现也表明了该模型能够很好地表示句子的意义。Facebook 的研究人员考虑进行零样本设置,换句话说,就是研究人员在没有微调或者目标语言资源的情况下,在英语上训练 NLI 分类器,然后将它应用到目标语言中。对于 14 种语言,使用零样本的模型在其中的 8 种语言(包括与英语关系很远的俄语、汉语以及越南语等)上的性能是其在英语上的性能的 5% 以内。同时,该模型也在斯瓦希里语和乌尔都语等低资源的语言上表现出色。最终,对于 14 种语言,LASER 在其中的 13 种语言上的零样本迁移表现,都超越了此前的所有方法。
与此前要求句子一定要用英语表示的方法相比,Facebook 的系统完全可以使用多种语言,并且还支持任意组合不同语言的前提和假设。

结论

TODO

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容