Cross-lingual Transfer of Monolingual Representations

clipboard.png

假设有两种语言L1和L2,L1既有大量无标签数据又有下游任务的监督数据,L2只有大量无标签数据,整个流程可分为一下四步:

  1. 在L1无标签的数据集上,训练一个单语的bert,任务为masked语言模型(MLM)和 下一句话预测(NSP)
  2. 冻结第1步训练好的bert中的transformer部分(embedding层和softmax层除外),在L2无标签的数据集上从头开始训练新的bert模型,任务同1
  3. 使用L1下游任务的监督数据,微调第1步训练好的模型,微调的过程中冻结 embedding层
  4. 使用第2步得到的embedding层替换第3步的embedding层,得到新的模型,可应用于L2中相同的下游任务
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容