知识增强的预训练模型简介

©NLP论文解读 原创•作者 | 杨健

专栏系列概览

该专栏主要介绍自然语言处理领域目前比较前沿的领域—知识增强的预训练语言模型。通过解读该主题具备代表性的论文以及对应的代码,为大家揭示当前最新的发展状况。为了能够和大家更好的分享自己的收获,笔者将遵循下面几个原则。

 1、理论讲解尽量深入浅出,通过举例子或者大白话讲解论文,而非仅针对原文翻译。

2、针对论文中一些重要的术语,适时的做出解释。

3、理论和实践相结合,除了理论讲解,还会加入部分重要代码讲解。并且分享个人认为重要的一些工程技巧。

知识增强的预训练模型

工欲善其事必先利其器。今天的文章主要介绍 是什么、它的背景知识以及分类。后续的文章将进一步深入,详细介绍每一类知识增强的预训练模型。

从哪里来

自从神经网络成为主流以来,自然语言理解等任务大多基于神经网络为各个下游场景单独设计模型。然而这类模型仅能够适用于单一下游任务,通用性不足。

相比自然语言理解领域,由于图像处理领域拥有大量的有标签数据,研究人员利用迁移学习的思想,在数年前就已经能训练出具备一般性图像特征的大规模预训练模型。

然而,一方面自然语言处理领域缺少足够的标注数据,另一方面循环神经网络架构也遭受梯度爆炸的困扰,使得该领域的大规模预训练模型迟迟未能出现。

Transformer的出现为解决这一问题带来了希望,一方面模型通过自注意力结构和残差链接解决了循环神经网络架构梯度爆炸的问题,从而使模型得以堆叠多层神经网络,另一方面通过引入自监督的预训练任务,也解决了标注数据不足的问题。

基于Transformer的BERT和GPT模型更是在当时横扫了各大榜单,在各个下游任务的表现远超为特定任务而设计的模型,其中BERT模型更是成为了自然语言理解发展过程中的里程碑。

在这一背景下,国内外提出了各种预训练语言模型,比如国外的RoBERTa、XLNet、T5、BART,国内智源提出的CPM、华为的盘古模型、阿里的M6以及百度的ERNIE等等。

笔者在下文也会介绍预训练语言模型的分类以及各自的特点。

到哪里去

深度学习技术凭借神经网络的分布式表示能力和层次结构泛化能力,实现了对大规模数据的学习和利用。

基于深度学习的预训练模型能够从大规模无监督数据中学习蕴含在文本中词法、语法、语义等信息,在自然语言领域中的下游任务中取得了重大突破。

然而预训练模型也面临着以下的问题,一是预训练模型基于统计的方法建模,根据共现信息学习文本中实体的隐式关联,这造成了预训练模型不具备深度理解和逻辑推理的能力。

其次,受到训练数据长尾分布的影响,预训练模型鲁棒性差,容易受到攻击,并被别有用心的人恶意使用。此外,预训练模型缺乏常识知识,阻碍了预训练模型在实际应用场景的大规模推广。

知识能为预训练模型提供更全面丰富的实体语义和实体关联信息,通过提供常识和领域知识,克服训练数据长尾分布的限制,增强预训练模型的鲁棒性。

不仅如此,符号知识如知识图谱,以三元组的形式表示,具有明确的语义,为知识如何在使用场景中发挥作用引入了可解释性。

在这个背景下,自然语言处理领域涌现出了许多知识与预训练模型想结合的研究工作,尝试为预训练模型注入知识,从而更好将预训练模型应用于知识驱动和语义理解任务,这类模型也被称之为知识增强的预训练模型。

前行的途径

什么才算是知识,如何定义知识呢?给定知识,又应该如何注入到预训练模型之中实现性能的提高呢?

维基百科将知识定义为对某个主题确信的认识,并且这些认识拥有潜在的能力为特定目的而使用。Bloom等人[1]将知识分为四大类,分别是事实性知识、概念性知识、程序性知识和元认知知识。

其中事实性知识指描述客观事物的术语知识和具体细节及要素的知识,如事件、地点、人物、日期等;

概念性知识指一个整体结构基本要素间的关系,包括类别与分类的知识,原理与概括的知识,理论、模式和结构的知识;

程序性知识是指导行动的知识,一般与具体学科相关联,包括学科技能和算法知识、学科技术与方法知识、何时适当使用程序的知识;

元认知知识强调自我的主动性,是对自我认知和认知任务的知识。

从表现形式上分,则可以分为显性的符号知识和隐性的模型和向量知识。比如知识图谱、语言知识这一类通过三元组和语法树等方式表现的知识,就是显性的符号知识。

我们知道,针对对文本进行预训练获得的模型如BERT、通过对三元组使用Trans系列的模型(TransE、TransR等)生成的向量,都携带着语义信息,然而这类知识不如符号知识的直观性强,我们将其归类为隐性知识。这一系列主要介绍基于显性知识增强的模型。

考虑到符号知识主要以字符串的形式存在,而预训练模型则基于神经网络。对符号知识的表示学习就成为了架接两者的桥梁。

为此,大多数知识增强的预训练模型往往使用图神经网络、知识图谱的表示学习方法,如基于张量或者平移的模型、又或者Transformer对符号知识编码,将其转换为表示向量(embedding)。

其次,知识的注入需要考虑预训练的特性,注入的方法大多从预训练的语料、模型采用的预训练任务、模型结构、擅长的场景等角度综合考虑。

以清华提出的ERNIE和KnowBERT为例,两者都事先针对知识图谱进行表示学习。由于两者都采用BERT作为基础模型,就仍然使用Transformer的架构作为编码器编码知识向量,并且为了能够和BERT在预训练期间所使用的预训练任务保持一致,这两个模型都使用预测经过掩码的实体词作为预训练任务,以最大限度的利用模型已习得的能力。

再比如,BERT模型更擅长于语言理解任务,而GPT系列更擅长于生成任务,那么对于生成场景,为了让模型生成具备常识的内容,就需要选择使用自回归方式进行预训练,也就是GPT这类模型作为基础模型注入知识。

而对于实体分类、关系分类这类侧重于理解能力的任务而言,选择BERT、RoBERTa则更加合适。具体的注入方式笔者将会在后续的文章中逐步介绍。

预训练语言模型的分类

对于知识增强的预训练模型而言,知识的注入和预训练模型密切相关。因此,笔者先在这部分对各类预训练模型做一个简单的介绍。

预训练模型的分类方式有多种,推荐阅读综述论文[2-3]。笔者更倾向于从模型使用的架构来分类,因为采用不同的架构会影响模型能够适用的场景,这种分类方式更具有实践意义。

从这一个角度,可以将其分为三类,分别是采用Transformer的encoder架构、采用decoder架构、以及encoder-decoder架构的预训练模型。第一类的代表模型有BERT、RoBERTa,第二类代表模型则是GPT系列,最后一类的代表模型则有T5、BART等。

事实上,encoder和decoder架构之间的差异仅仅在于是否适用了掩码矩阵,decoder架构适用掩码矩阵实现了下文的遮挡。

采用encoder架构的预训练模型由于在预训练阶段就看到了上下文信息,更擅长于理解型的任务,然而对于无法看到下文信息的应用场景而言,由于和预训练阶段的训练范式不一致,效果就会大打折扣。采用decoder架构仅仅利用上文预测,虽然能够利用的信息更少,但适用的场景更多。

而且,通过扩大参数量和训练语料,这类模型的理解能力也不弱于第一类模型。最近一篇基于Prompt的论文也证明了GPT模型具有很强的理解能力[4],笔者更倾向于这类模型。

最后一类模型则是采用挖取一小段文本(span),打乱文字顺序等方式来避免下文的泄露,如T5在encoder虽然能看到上下文,但是无法看到被挖取的部分文本,而这部分文本则需要decoder来预测。

这类模型能够同时胜任语言理解和生成任务,但不足之处就是由于需要编码器和解码器,参数是前两类模型的两倍。

知识增强的预训练模型分类

知识增强的预训练模型可以从注入的知识以及粒度、以及注入的方法、应用场景等角度分类。为了让大家更具启发,笔者在这里从知识的注入方法进行分类,将其分为基于知识向量融合的模型、基于知识图谱监督的模型、基于统一知识和文本结构的模型以及基于联合训练的模型。

基于知识向量融合的模型对符号知识预先表示学习,然后针对文本中的指称项(mention)对象的向量和实体向量加权求和、使用自注意机制等方式融合两者。所谓指称项可以理解为某一个实体非正式的别名。

基于图谱监督的模型则是通过从知识图谱中获取实体的语义、情感等作为模型的额外特征,又或者从中选择同义、反义词等作为监督语料,使预训练模型学习显式的实体关系。基于统一结构的模型则将符号知识和文本转换为统一的结构,使用同一个编码器,大多使用Transformer进行编码。

最后一类模型则通过为知识设计额外的预训练任务实现知识的注入。

最后附上一张模型的分类图。

参考文献:

[1]Taxonomy of educational objectives 

http://nancybroz.com/nancybroz/Literacy_I_files/Bloom%20Intro.doc

[2]Pre-trained models for natural language processing: A survey

https://www.researchgate.net/profile/Xipeng-Qiu/publication/340021796_Pre-trained_Models_for_Natural_Language_Processing_A_Survey/links/5e7b1a05299bf1f3873fd11a/Pre-trained-Models-for-Natural-Language-Processing-A-Survey.pdf

[3]Pre-Trained Models: Past, Present and Future

https://arxiv.org/pdf/2106.07139.pdf

[4]GPT Understands, Too

https://arxiv.org/pdf/2103.10385.pdf

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容