【XTREME】

XTREME:评估多语言泛化的大规模多语言多任务基准
摘要 机器学习模型应用于NLP的最新进展是由评估各种任务模型的基准驱动的。然而,这些覆盖范围广泛的基准测试主要局限于英语,尽管人们对多语言模型的兴趣越来越大,但是仍然缺少一个基准测试来全面评估这些方法对各种语言和任务的影响。为此,我们引入了多语言编码器(XTREME)基准的跨语言转换评估,这是一个多任务基准,用于评估40种语言和9个任务的多语言表示的跨语言泛化能力。我们证明,虽然英语测试的模型在许多任务上达到了人类的表现,但在跨语言迁移模型的表现上仍然有相当大的差距,特别是在句法和句子检索任务上。在不同的语言之间也有广泛的结果。我们发布基准1是为了鼓励对跨语言学习方法的研究,这些方法将语言知识转移到不同的、有代表性的语言和任务中。

介绍 在自然语言处理(NLP)中,迫切需要建立一个系统,为世界上大约6900种语言提供服务,以克服语言障碍,使世界公民能够普遍获取信息(Ruder et al., 2019;Aharoni等人,2019年;Arivazhagan等,2019b)。同时,由于数据的严重缺乏,为大多数这些语言构建NLP系统也具有挑战性。 幸运的是,许多语言在语法或词汇表方面有相似之处,而利用输入空间的共享结构进行多语言培训的多语言学习方法已经开始显示出缓解数据稀疏性的希望。该方向的早期工作集中于单个任务,如语法归纳(Snyder et al., 2009)、词性(词性)标记(T¨ackstr¨om et al., 2013)、解析(McDonald et al., 2011)和文本分类(Klementiev et al., 2012)。在过去的几年里,有一种趋势是通用的多语言表示,适用于许多任务,都是在单词级别上(Mikolov et al., 2013;Faruqui & Dyer, 2014;Artetxe et al., 2017)或全句级(Devlin et al., 2019;Lample & Conneau, 2019)。尽管这种表示是通用的,评价他们经常被执行在一个非常有限的,往往不同的组tasks-typically关注翻译(Glavaˇ年代et al ., 2019;Lample和Conneau, 2019)和classification(Schwenk和Li,2018;Conneau等人,2018b) - and typologically similar languages (Conneau等人,2018a)。为了解决这个问题,并激励真正通用的跨语言表示和转换学习的研究,我们引入了多语言编码器(XTREME)基准的跨语言转换评估。XTREME涵盖了12个语言家族的40种不同类型的语言,包括9个任务,需要对不同的语法或语义进行推理。另外,我们通过自动将自然语言推理和问答数据集的英语测试集翻译成其余语言,引入伪测试集作为涵盖所有40种语言的诊断。
XTREME专注于零镜头跨语言迁移场景,其中带注释的训练数据以英语提供,但没有以系统必须迁移的语言提供。我们评估了一系列最新的机器翻译(MT) 以及基于多语言表示的方法来执行此传输。 我们发现,尽管在考虑的许多任务上,最先进的模型在英语方面都接近人类的表现,但在用其他语言进行评估时,表现却大大下降。 总体而言,句法和句子检索任务的性能差异最高。 此外,尽管模型在印欧语系的大多数语言中都表现不错,但我们观察到了较低的性能,特别是对于汉藏语,日语,韩语和尼日尔-刚果语。
总之,我们的贡献如下:(i)我们发布了一套9个跨语言基准测试任务,覆盖40种不同类型的语言。(二)提供多语言模型评价的在线平台和排行榜。(iii)我们提供了一组强大的基线,我们对所有任务进行评估,并发布代码以促进采用。(iv)我们对最先进的跨语言模型的局限性进行了广泛的分析。

相关工作 跨语言表征的早期工作集中在使用平行语料库学习跨语言表征(Gouws et al., 2015;(Luong et al., 2015)或使用双语词典学习线性变换(Mikolov et al., 2013;Faruqui & Dyer, 2014)。后来的方法使用自我训练(Artetxe et al., 2017)和非监督策略,如对抗训练(Conneau et al., 2018a)、启发式初始化(Artetxe et al., 2018)和最优运输(Zhang et al., 2017),减少了所需的监督量。基于单语迁移学习的进展(McCann等,2017;Howard & Ruder, 2018;彼得斯等,2018;(Devlin et al., 2019),预训练编码器的多语言扩展最近被证明对学习深度跨语言表示是有效的(Eriguchi et al., 2018;皮雷斯等人,2019年;吴德雷兹,2019年;Lample & Conneau, 2019;Siddhant等人,2019年)。
跨语言表征评价的一个支柱是翻译,即在词汇层面(双语词汇归纳)或在句子层面(机器翻译)。在大多数情况下,评估仅限于类型学相关的语言和类似的领域;方法已经被证明失败在有利条件(Glavaˇ年代et al ., 2019;Vuli’c等人,2019年;Guzm ' an等人,2019年)。过去的工作也报告了双语词汇归纳的通用数据集的问题(Czarnowska et al., 2019;Kementchedjhieva et al ., 2019)和微弱的相关性与某些下游任务(Glavaˇ年代et al ., 2019)。然而,翻译只涵盖了模型跨语言综合能力的一个方面。例如,它没有捕捉到由于文化差异而导致的分类性能差异(Mohammad et al., 2016;Smith等人,2016)。
另一方面,跨语言的方法一直在评估各种任务,包括依赖解析(舒斯特et al ., 2019),命名实体识别(拉希米et al ., 2019),情绪分析(Barnes et al ., 2018),自然语言推理(Conneau et al ., 2018 b),文档分类(Schwenk &李,2018),和问答(Artetxe et al ., 2019;刘易斯等人,2019年)。评价一个任务是有问题的过去的工作指出潜在问题与标准数据集:MLDoc (Schwenk &李,2018)可以解决通过匹配关键字(Artetxe et al ., 2019),尽管MultiNLI, XNLI的数据集(Conneau et al ., 2018 b),包含表面的线索,可以利用(Gururangan et al ., 2018)。因此,对多个任务的评估是比较跨语言模型的必要条件。涉及多个任务的基准测试,如GLUE (Wang et al., 2019b)和SuperGLUE (Wang et al., 2019a),可以说促进了单语迁移学习的研究。在跨语言设置中,这样的基准不仅需要覆盖不同的任务集,还需要覆盖不同的语言。XTREME旨在填补这一空白。

XTREME XTREME的目标是提供一个可访问的基准,用于评估跨语言迁移学习在一组不同的和有代表性的任务和语言上的学习,我们根据以下原则选择组成基准的任务和语言:
任务难度 任务应该具有足够的挑战性,以至于跨语言的表现不如人类的表现。
任务多样性 任务应该要求多语言模型在不同的层次上传递它们的意义表示,例如单词、短语和句子。例如,分类任务需要句子级的意义转移,而序列标记任务,如词性标记(POS)或命名实体识别(NER)测试模型在单词级的转移能力。
训练效率 任务应该可以在单一GPU上训练不到一天。这是为了使基准可访问,特别是对在资源约束下使用低资源语言的从业者。
多语言 我们更喜欢涵盖尽可能多的语言和语言家族的任务。
足够的单语数据 语言应该有足够的单语数据来学习有用的预训练表示。
可访问性 每个任务均应在许可的许可下可用,该许可允许出于研究目的使用和重新分发数据。

再往下,我觉得没有记录的必要了,文章很清晰。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容