GPT:通用预训练语言模型

论文标题:Improving Language Understanding by Generative Pre-Training
论文链接:https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
论文来源:OpenAI

一、概述

从无标注文本中高效学习的能力对于缓解对监督学习的依赖是很关键的。很多自然语言处理任务依赖于大量的标注数据,对于这些任务来说,能够从无标注数据中学习的无监督方法就成了重要的替代方法。然而,从未标注的文本中利用单词级以上的信息具有挑战性,主要有两个原因:
①目前尚不清楚哪种类型的优化目标在学习对迁移有用的文本表示时最有效;
②对于将这些学习到的表征转移到目标任务的最有效方法,目前还没有达成共识。

在本文中探索了一种用于语言理解的半监督方法,也就是GPT,其采用无监督预训练与有监督微调相结合的方式。本文的目标是学习一种普遍的表征,它可以不需要任何适应就能转移到广泛的任务中,而且不要求这些目标任务与未标注语料库处于同一域中。首先,我们在未标注数据上使用语言建模目标函数。随后,我们使用相应的监督目标函数将这些参数调整到目标任务。

GPT采用Transformer作为模型架构。Transformer在捕获长程依赖方面能力优越,相较于循环网络是更合适的选择。在进行下游任务迁移时,GPT采用特定于任务的输入适配方法,将结构化文本输入处理为单个连续的token序列。这些适配使我们能够在对预训练模型的架构进行最小更改的情况下有效地进行微调。

GPT在进行实验的12个数据集中的9个上取得了新的SOTA结果。举例来说在常识推理任务(Stories Cloze Test)上取得了8.9%的提升,在问答任务(RACE)上取得了5.7%的提升,在文本蕴含任务(MultiNLI)取得了1.5%的提升,另外在GLUE多任务benchmark数据集上取得了5.5%的提升。

二、方法

GPT的训练过程主要包括两个阶段。第一个阶段是利用一个大的文本语料库来学习一个高容量的语言模型,接着第二个阶段进行微调,也就是利用标注数据将模型适配到一个下游任务。

  1. 无监督预训练

给定一个无监督语料库,其token集合用\mathcal{U}=\left \{u_{1},\cdots ,u_{n}\right \}来表示,我们使用一个标准语言建模目标函数来最大化以下似然:

L_{1}(\mathcal{U})=\sum _{i}log\; P(u_{i}|u_{i-k},\cdots ,u_{i-1};\Theta )

这里的k是上下文窗口的大小。条件概率P使用参数为\Theta的神经网络来建模,这些参数使用随机梯度下降来训练。在本文的实验中,使用一个多层Transformer decoder(其实是Transformer decoder中的masked多头自注意力层加上前馈层,没有使用中间那一层)来作为语言模型,这是Transformer的变种。这个模型在输入文本token上应用多头自注意力机制,然后使用前馈层来产生一个目标token的输出分布。以下是GPT预测当前token的过程:

h_{0}=UW_{e}+W_{p}\\ h_{l}=transformer\_block(h_{l-1})\; \; \forall l\in [1,n]\\ P(u)=softmax(h_{n}W_{e}^{T})

这里的U相当于当前预测token的上下文指示向量,用于从word embedding矩阵W_{e}\in \mathbb{R}^{v\times d}v是词典大小,d是word embedding的维度)中取出当前预测token的上下文embedding向量。n在这里表示使用的Transformer 层的数量,W_{p}是位置矩阵,h_{l}\in \mathbb{R}^{k\times d}l层的输出。

  1. 有监督微调

在处理下游任务时需要将模型参数适配到相应的任务。我们假设一个有标注数据集\mathcal{C},其中每个实例包含一个输入token的序列x^{1},\cdots ,x^{m}以及一个标签y。输入token序列将通过GPT以获取其最后一层的最后一个token的输出h_{l}^{m},然后将其通过一个参数为W_{y}的线性输出层来预测y

P(y|x^{1},\cdots ,x^{m})=softmax(h_{l}^{m}W_{y})

这相当于最大化以下似然:

L_{2}(\mathcal{C})=\sum _{(x,y)}log\; P(y|x^{1},\cdots ,x^{m})

另外本文发现在微调时将预训练的目标函数作为辅助目标是有帮助的,这可以:
①提高有监督模型的泛化性能;
②加速收敛。
因此在微调时可以优化以下目标函数(\lambda作为权重超参数):

L_{3}(\mathcal{C})=L_{2}(\mathcal{C})+\lambda \cdot L_{1}(\mathcal{C})

总而言之,在微调时需要的额外参数只有W_{y},以及分隔符token的embedding(后面会提到)。

  1. 特定于任务的输入转换

对于某些任务,如文本分类,我们可以直接如上所述微调我们的模型。然而某些其他任务,如问答或文本蕴含,具有结构化的输入,如有序的句子对,或文档、问题和答案的三元组。由于我们的预训练模型是在连续的文本序列上训练的,所以我们需要进行一些修改才能将其应用于这些任务。GPT的策略是将这些任务的结构化输入转换为GPT可以处理的有序序列,这样可以避免对模型进行广泛的更改。下图展示了针对各种任务的适配。所有的输入变换都需要添加随机初始化的开始和结束token<s>和<e>。

输入转换
  • 文本蕴含

对文本蕴含数据集中实例的处理就是将前提p和假设h中间用分隔符$隔开。

  • 文本相似性

对于相似性任务,两个对比的句子没有固有的顺序,为了反映这一点我们将两个句子按不同的顺序排列,中间都用分隔符$隔开。然后单独处理两个顺序的拼接获得两个h_{l}^{m},最后将这两个h_{l}^{m}element-wise地加起来再输入到线性输出层。

  • 问答及常识推理

对于这一类的任务,每个实例都包含一个文档z、问题q以及一个可能的答案集合\left \{a_{k}\right \}。我们将文档z与问题q直接拼接起来,然后与每个答案a_{k}拼接(需要添加分隔符$)。所有这些拼接的token序列被GPT单独处理然后用一个softmax来预测可能的答案。

三、实验

  1. 数据集

无标注数据集使用BooksCorpus书籍数据集。下游任务数据集如下表所示:

数据集
  1. 实验

各类下游任务的实验结果如下图所示:

实验
实验
实验
  1. 分析

探究了模型层数的影响与zero-shot设置的模型性能:

分析
  1. 消融实验

GPT的消融实验:

消融实验
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容