ALBert论文阅读笔记-缩减版的bert,模型参数更少,性能更好

引言

自从Bert被提出来后,后续的研究者大多基于bert进行改造,提升预训练语言模型性能,从而提高下游任务的性能。比如ERINE、BERT_WWM、MASS、MT-DNN、RoBERT等等。从GLUE榜上我们可以看到,似乎现在的语言模型有越来越大的趋势,虽然我们的训练资源也是从GPU单卡到GPU多卡,到现在TPU,但不是每个公司都这么有钱,特别对个人,有可能就是一块卡,怎么样在资源有限的情况下,玩起来这些高大上的模型了?我们知道bert的base版本12层,参数量接近110M,这样大的模型在线上部署的时候效果是怎么样的?下表是在linux环境下基于GTX 1080运行结果。

环境 序列长度 请求次数 总时间(s) 平均耗时(ms)
GPU+checkpoint 128 10000 135.6 13.56
GPU+checkpoint 12 1000 10.3 10.3
CPU+checkpoint 128 1000 212 212
CPU+checkpoint 12 1000 83 83
CPU+tfserving 128 1000 351 351
  • 我们可以看到序列长度越短,推断时间也越短;
  • GPU的推断性能远大于cpu;
  • 基于tfserving的推断,因为是基于grpc远程调用,在服务启动和调用上会带来一定的耗时。那么有没有一种压缩版的bert,可以提高线下训练和线上推断的性能呢?下面这篇论文可以提供一种解决方案。

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Google 201909发表

目录

1. 摘要

Bert在2018一经提出,提高了很多nlp任务的baseline,但是Bert模型参数量大,在推断资源有限的情况下,我们应该怎么样用bert这种好的预训练模型。为了解决问题,本文提出了两种参数简化的方法,加速Bert的预训练和推断;并且我们提出了一个新的自监督的loss函数,SOP学习到句子间的内部特征。我们提出的模型,参数量更小,并且在GLUE,RACE等NLP 任务上达到最佳性能。

2. Bert简介

BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,这是真正基于self attention实现双向。模型的主要创新点都在预训练模型上,即用了Masked LM和Next Sentence Prediction(NSP),两种loss直接相加,优化的话可以加权相加,两种方法分别捕捉词语和句子级别的representation。

Bert一经提出,迅速火遍NLP,GLUE毫无悬念获得第一名,高于基于ELMO,gpt等语言模型的一大截,一时间打开了迁移学习两阶段的大门,第一步基于无监督的语料训练自己的MLM,然后基于自己的一些数据进行finetune,从而获得很好的效果。

3. ALBERT论文细节以及实验结果

3.1 参数缩减方法

本文提出两种模型参数缩减的方法,具体如下:

  • 从模型角度来讲,wordPiece embedding是学习上下文独立的表征维度为E,而隐藏层embedding是学习上下文相关的表征维度为H。为了应用的方便,原始的bert的向量维度E=H,这样一旦增加了H,E也就增大了。ALBert提出向量参数分解法,将一个非常大的词汇向量矩阵分解为两个小矩阵,例如词汇量大小是V,向量维度是E,隐藏层向量为H,则原始词汇向量参数大小为V*H,ALBert想将原始embedding映射到V*E(低纬度的向量),然后映射到隐藏空间H,这样参数量从 V*H下降到V*E+E*H,参数量大大下降。但是要注意这样做的损失确保矩阵分解后的两个小矩阵的乘积损失,是一个有损的操作。
  • 层之间参数共享。base的bert总共由12层的transformer的encoder部分组成,层参数共享方法避免了随着深度的加深带来的参数量的增大。具体的共享参数有这几种,attention参数共享、ffn残差网络参数共享。

3.2 SOP预训练任务

我们知道原始的Bert预训练的loss由两个任务组成,maskLM和NSP(Next Sentence Prediction),maskLM通过预测mask掉的词语来实现真正的双向transformer,NSP类似于语义匹配的任务,预测句子A和句子B是否匹配,是一个二分类的任务,其中正样本从原始语料获得,负样本随机负采样。NSP任务可以提高下游任务的性能,比如句子对的关系预测。但是也有论文指出NSP任务其实可以去掉,反而可以提高性能,比如RoBert。

本文以为NSP任务相对于MLM任务太简单了,学习到的东西也有限,因此本文提出了一个新的loss,sentence-order prediction(SOP),SOP关注于句子间的连贯性,而非句子间的匹配性。SOP正样本也是从原始语料中获得,负样本是原始语料的句子A和句子B交换顺序。举个例子说明NSP和SOP的区别,原始语料句子 A和B, NSP任务正样本是 AB,负样本是AC;SOP任务正样本是AB,负样本是BA。可以看出SOP任务更加难,学习到的东西更多了(句子内部排序)。

3.3 实验结果

本文提出了2种参数压缩的方法以及1个新的loss,下面主要对这几种方法进行实验,实验结果如下:

下图2展示了BERT-large和ALBERT-large两个模型的输入和输出embedding的L2以及余弦距离,我们可以看出ALBERT模型的距离比BERT模型
更层距离更加平滑,这说明权重共享有助于稳定网络的参数。


dis_layers.png

其中BERT和ALBERT模型的参数配置如下,我们可以看到当减小embedding的维度以及使用了参数共享的方法,模型的参数量大大减小。


param_sharing_result.png

Bert和ALBert的模型性能比较如下,我们可以看到总体来说,ALBERT的性能优于Bert,并且参数量较小接近5倍,性能也是最优的。


model_result.png

4. 总结与问题

  • 本文提出了2种模型参数压缩的方法,即embedding矩阵分解法以及层参数共享法,并通过实验证明词方法的有效性;
  • 同时本文也提出了一个新的预训练任务,SOP,是一个比NSP任务更难并且学习到的东西更多的任务,可以学习到句子内部的顺序。
  • 通过实验证明了这3个创新方案的有效性,目前排在GLUE排行榜第一名。

几个思考问题如下:

  • 论文提及到下游任务性能提高,并且参数量大大减小,训练速度也极大提高,推断速度是不是也是同步的提高,这是需要实验证明;
  • 论文采用矩阵分解来将大矩阵变成两个小矩阵,是不是也会带来损失;

参考文献

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351