摘要
- 提出 多语言编码器 XTREME
- 用于评估40种语言和9个任务
介绍
- 提出问题
- 语言种类繁多
- 数据严重缺乏
- 易点
- 许多语言在语法或词汇表方面有相似之处
- 利用输入空间的共享结构进行多语言训练(缓解数据稀疏性)
- 从前人研究中提出问题
- 趋势是通用的多语言表示(单词级,句子级)
- 尽管事实上这些表示是通用的,但对它们的评估通常是在非常有限且通常是完全不同的一组任务(通常集中在翻译和分类)以及类型上相似的语言上进行的。
- 提出论点
- 针对前人问题,提出XTREME
- XTREME专注于zero-shot跨语言传输场景
- 评估一系列,发现英语表现最好,其他一般
- 句法和句子检索任务的性能差异最高
- 印欧语系好,汉语、藏语、日语、韩语和尼日利亚-刚果语的表现更差
- 总结
- 发布了包含40种不同类型语言的9个跨语言基准测试任务套件
- 为多语言模型的评估提供了一个在线平台和排行榜
- 提供了一组强大的基线,我们对所有任务进行评估,并发布代码以促进采用。
- 我们提供了最先进的跨语言模型的局限性的广泛分析。
相关工作
- 跨语言表示
- 跨语言评价
XTREME
- 设计原则
- 任务要有一定难度
- 任务多样性
- 训练效率
- 多语言
- 足够的单语数据
- 可访问性
再往下,我觉得没有记录的必要了,文章很清晰。