[NLP论文笔记] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding阅读笔记

0. 写在前面

 google发布了BERT模型,刷榜了各类NLP任务,成为NLP领域的ImageNet,并随后公开了源码与多种语言的预训练模型。
 我们算法组也一直跟进该论文与模型,并将其应用于现有的项目中。现在对其进行一下总结。

paper:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1. 论文贡献

  • 论文证明双向预训练对语言的表示学习具有重要作用。
    近期两个代表性的语言预训练模型中,OpenAI GPT是单向语言模型,而 Peters的ELMo模型也仅是对两个浅层left-to-right和right-to-left独立模型的级联;而BERT通过引入Masked LM(遮蔽语言模型) 构建了一种深度双向语言表示模型,使语言的表示学习过程中可以同时利用上下文信息且不造成信息泄漏。
  • 论文证明预训练的表示学习可以替代具有复杂架构的工程模型,在许多token-level和sentenc-level任务中,利用BERT进行微调可以获得等效甚至更好的结果。
  • BERT刷新了许多NLP任务,论文也会公开源码与预训练好的模型供研究人员使用。

未完待续......

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容