【Google-XTREME】笔记

摘要
  1. 提出 多语言编码器 XTREME
  2. 用于评估40种语言和9个任务
介绍
  1. 提出问题
  • 语言种类繁多
  • 数据严重缺乏
  1. 易点
  • 许多语言在语法或词汇表方面有相似之处
  • 利用输入空间的共享结构进行多语言训练(缓解数据稀疏性)
  1. 从前人研究中提出问题
  • 趋势是通用的多语言表示(单词级,句子级)
  • 尽管事实上这些表示是通用的,但对它们的评估通常是在非常有限且通常是完全不同的一组任务(通常集中在翻译和分类)以及类型上相似的语言上进行的。
  1. 提出论点
  • 针对前人问题,提出XTREME
  • XTREME专注于zero-shot跨语言传输场景
  • 评估一系列,发现英语表现最好,其他一般
  • 句法和句子检索任务的性能差异最高
  • 印欧语系好,汉语、藏语、日语、韩语和尼日利亚-刚果语的表现更差
  1. 总结
  • 发布了包含40种不同类型语言的9个跨语言基准测试任务套件
  • 为多语言模型的评估提供了一个在线平台和排行榜
  • 提供了一组强大的基线,我们对所有任务进行评估,并发布代码以促进采用。
  • 我们提供了最先进的跨语言模型的局限性的广泛分析。
相关工作
  1. 跨语言表示
  2. 跨语言评价
XTREME
  1. 设计原则
  • 任务要有一定难度
  • 任务多样性
  • 训练效率
  • 多语言
  • 足够的单语数据
  • 可访问性
    再往下,我觉得没有记录的必要了,文章很清晰。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • node 安装 双击下载好的 node 的 node-v10.1.0-x64.msi 文件到D盘 在cmd下输入n...
    持续积累阅读 686评论 0 0
  • 月光如水,夜色多温柔 风中有一丝丝的甜香 那是五月槐花的味道 若有若无,似远还近 寂静的夜有些冷清 心中有些难安宁...
    丁_香阅读 730评论 43 30
  • 今天在图怪兽上找图片的时候,偶然看到这个网络用词,好像突然被炮打了一下,整个人都醒了。我终于知道我的白头发...
    像海绵一样呼吸阅读 212评论 0 1