BERT Paper Review

BERT-Google Code

Pre-training of Deep Bidirectional Transformers for Language Understanding

       EMLo的热度还没降下来(凉了),紧接着OpenAI GPT和ELMo的Google BERT,在很多个NLP任务中都获得了大幅度的提升,又成了NLP的一个牛逼疯了大热点 。
       下面记录一下对论文的理解和笔记。

1、相关知识

       预训练模型,BERT是一个预训练模型。简单的来说就是一个模型通过大数据集A来训练,学习到一个关于数据集A的参数。当进行数据集B的任务时,先调用关于A的参数作为初始参数,然后再通过数据集B进行再训练,并调整参数,逐渐调整成为适合数据集B的模型,也就是“fine-tuning(微调)”。
       这个特性的特点就是可以用很少的数据集B就能训练得到很好的训练参数,即,一定程度上的继承了在数据集A训练好的参数,通过微调使之快速适应数据集B。而且通常这样做,会得到比只用数据B训练得到的模型参数更好。

2、BERT

       主要贡献:双向预训练对语言表示的重要性,使用MLM(Masked Language Model,遮蔽语言模型),语句级训练NextSentence任务

       论文提出了两种不同Size的BERT模型:
              BERTbase:L=12,H=768,A=12,TotalParams = 110M(Base版本的提出意在与GPT模型有相同的模型size,用以对比参照)
              BERTlarge:L=24,H=1024,A=16,TotalParams = 340M
L:指网络的层数
H:指隐层的单元数
A:指使用的自注意力的头数(Attention Is All You Need)
        两者的差别就是大小不同,在后面的实验结果部分,BERTlarge版本大概比base版本要再高约1% ~ 2%左右,在CoLA数据集差8%左右,RTE在4%左右。

       模型结构对比
OpenAI GPT

       OpenAI GPT就是只用到了从左往右的上下文信息来做训练。


ELMo

       而ELMo使用的是两个独立的单向LSTM来做训练。据说ELMo使用时效率比较低,而且很快又被提出的BERT强势压在头上,所以ELMo小火之后,就没然后了。


BERT

       BERT的结构主要是基于多层多个双向Transformer(从左到右和从右到左)。Transformer在Attention论文中应用MT(机器翻译)任务时用了6层的Transformer。从结构上来讲,Transformer之间用的是Residual Connection,并且有batch normarlization这种“常规操作”,所以得以实现多层网络。而疑问在于多层的网络结构可以在NLP任务中学习到什么特征?有论点认为低层网络偏向于语法特征学习,高层网络偏向于语义特征学习,但这还没有得到论证。
       Task1:MLM(遮蔽语言模型)

       BERT创新性的一个亮点就是对输入数据的处理,“MLM”,即遮蔽语言模型。BERT通过对输入句子15%的token进行随机遮蔽(随机遮蔽的原因是为了减少未来fine-tuning时遇到未见词的可能性),然后将masked token的位置输出的最终隐层向量送到softmax,来预测masked token。而对于遮盖住的token在NLP下游任务中不存在这种Mask标记,因此为了解决这个问题,作者按照一定的比例来进行输入原词或者输入某个随机词。
文中例如:My dog is hairy

  • 80%概率:用[mask] 标记替换:My dog is hairy -->My dog is [mask]
  • 10%概率:随机词替换要标记位置:My dog is hairy -->My dog is pig.
  • 10%概率:不做替换操作:My dog is hairy -->My dog is hairy. (无替换)
           Transformer
           Transformer已经提到,是来自于同是Google提出的《Attention Is All You Need》,是一种可以替代CNN和RNN的新架构,用来实现MT任务。CNN处理文本的缺陷是,卷积操作先天不适合用于文本序列操作,RNN没有并行化,很容易超出内存限制。
    Transformer 结构

           上图就是Transformer的结构图,分成左边Nx的encoder部分和右边Nx的decoder部分,相比较于RNN+Attention常见的encoder-decoder之间的Attention,还多出encoder和decoder内部的self-attention。每个Attention都有Multi-Head特征,最后通过Position encoding加入没有考虑过的位置信息。
           Multi - Head Attention
           将一个词的vector,切分成h个维度,求attention相似度(点积、cosine、MLP)时每个h维度计算。由于单词映射在高维空间作为向量形式,每一维空间都可以学习到不同的特征,相邻空间所学到的结果更相似,相较于全体空间放到一起更具合理性。比如对于vector-size = 512的词向量,取h=8,每64个空间做一个Attention,学到的结果更细化,更合理(即高维空间中的相邻维度具有的联系更紧密,我猜)。
           Self - Attention
           每个词位置的词都可以无视距离和方向,有机会和句子词序列中的每个词进行encoding。两个词的联系越强,self-attention的值越大。
           Position Encoding
           因为Transformer既没有RNN的循环单元也没有CNN的卷积操作,但序列顺序信息是非常重要的特征。
           Transformer计算token的位置信息(这里使用正弦波),类似信号的周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。
                  PE (pos,2i) = sin(pos/10000 2i/d model )
                  PE (pos,2i+1) = cos(pos/10000 2i/d model )
           但BERT直接训练一个Position Embedding 来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding(emmmm)。BERT最后这个Position Embedding 和 Word Embedding选择使用 直接拼接
       Task2:Next Sentence Prediction

       句子级别的连续性预测任务,即预测输入BERT的两端文本是否为连续的文本。训练时,输入模型的第二句以50%的概率从全部文本中随机抽取,剩下50%的概率选取第一个句子的后续一个句子作为输入。(其实就是做句子级匹配的二分类)
即如下:
       [Input]:[CLS]太阳天[mask]照[SEP]我[mask]去学校[SEP]
       [Label]:IsNext
       [Input]:[CLS]太阳天[mask]照[SEP]交给警察[mask]叔手里面[SEP]
       [Label]:NotNext
(虽然这个训练任务非常的简单,但是后来证明这项训练任务对QA和NLI都极有帮助)

       Segment Embedding
BERT Input Representation

       The input embeddings is the sum of the token embeddings, the segmentation embeddings and position embeddings.
       即直接拼接各个Embedding组合

3、迁移策略

下游NLP任务分类:
a). 序列标注:分词、NER、语义标注…
b).分类任务:文本分类、情感识别…
c).句子关系判断:QA、自然语言推理、文本蕴含…
d).生成式任务:机器翻译、文本摘要、文本生成…
       BERT 将传统大量在下游具体的NLP任务中做的操作转移到预训练词向量中,在获得BERT词向量后,最终只需要在词向量上加简单的MLP或线性分类器即可。

4、GLUE语料集

实验数据以及对应的NLP任务

  • MNLI蕴含关系推断
  • QQP问题对是否等价
  • QNLI句子是都回答问句
  • SST-2情感分析
  • CoLA句子语言性判断
  • STS-B语义相似
  • MRPC句子对是都语义等价
  • RTE蕴含关系推断
  • WNLI蕴含关系推断

References:
       BERT Paper
       Attention Paper
       Attention Is All You Need 阅读笔记
       BERT的理解
       彻底搞懂BERT
       BERT介绍

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335