Bert系列:Bert、Transformer、预训练模型、微调 简单入门介绍

摘要:BertTransformer预训练模型

内容摘要

  • Bert起源背景简介
  • Bert、Transformer、预训练模型、微调的关系
  • Bert和Transformer的区别联系
  • 预训练模型简介
  • 微调简介

Bert起源背景简介

Bert是2018年10月由Google AI研究院提出的一种预训练模型。BERT的全称是Bidirectional Encoder Representation from Transformers,即基于Transformer的双向编码表征算法,Bert在提出之初在各大NLP任务中刷新了性能表现记录,被认为是自然语言处理领域的一个里程碑。


Bert、Transformer、预训练模型、微调的关系

Bert通常与Transformer预训练模型微调一起被提及,简单而言Bert基于Transformer结构,提出了预训练模型这种新的方式思想,通过这种预训练模型方式,给定一个下游NLP任务进行微调,即可很好地完成则个任务。
具体而言,Bert是在Transformer的Encoder层网络结构的基础之上,通过海量数据的无监督学习训练得到的一组网络参数(如下图所示),该网络参数学习到了类似人类理解的通用的语义信息,下一步就是将这组网络参数迁移到下游具体的任务,比如文本分类,通过具体任务的样本再对Bert的参数做微调即可,可想而知如果在预训练阶段就已经掌握了语义知识,那下游任务的训练将变得更加容易。

Bert基于Transformer在海量样本无监督训练得到

Bert和Transformer的区别联系

两者的联系前文有提到Bert基于Transformer,实际上Bert网络结构完全套用了Transformer的Encoder层作为模型主干,Bert整体上就是由多层的Transformer Encoder堆叠所形成,Bert命名中的双向Bidirectional也就是Transformer中的self-attention机制的体现。
两者的区别首先完成任务的方式不同,Bert是预训练模型,期望在海量数据上学习理解字词的通用语义,再灌给下游各种个性化任务应用,而Transformer更多是类似于CNN,RNN的网络模型,直接端到端学习各种任务和样本,每个任务从头到尾建模。
再者Bert在处理输入层时对原始的Transformer论文方法做了改进,Bert支持输入一对句子,通过预测下一句是否是前一句的下一句来让模型参数学习语义(NSP任务),由此Bert加入了Segment Embedding专门用来辅助模型学习语义顺序,辅助的Bert在原始输入句子上做了标记,其中[SEP]代表句子结尾或者两个上下句的间隔,[CLS]在句子开头代表一个分类任务的占位符,用于判断后句是否是上句的下句的表征依据。另外Bert改进了Transformer的sin-cos位置编码,采用可学习式代替sin-cos这种固定式编码。

Bert的输入层和Transformer的差异

预训练模型简介

前文提到Bert的一大贡献是提出了预训练思想,在此之前NLP任务都是基于某个特定的中小规模的数据集样本,使用特定的模型比如LSTM,Transformer进行拟合训练,都是特定任务的独立建模,而预训练模型的思想是不需要网络模型能够拟合样本降低该样本在验证测试集上的loss损失,而是从底层源头出发,在其他海量数据集上类似人类一样真正能够理解语义,让机器能够读懂字词而不是一味的为了loss最低,在掌握了通过的语言理解能力之后,再根据特定样本进行参数微调,相当于再局部学习一次。
Bert是如何进行预训练的?Bert采用NSP,MLM两个任务让模型在海量数据中学到知识

  • NSP:Next Sentence Prediction,下一句预测,即给出两个句子,需要判断第二个句子是不是第一个句子的后一句内容,Bert会50%几率从语料中随机抽一条其他不连续句子,50%几率选择下一句来让模型判断学习
  • MLM:Mask Language Model,遮蔽语言模型,Bert随机遮蔽掉一个句子中的子词,使用其他上下文词预测出被遮蔽的词,相当于完型填空
NSP和MLM任务

NSP和MLM任务如上图所示,两个任务都不需要人工标记,原始的语料句子就是标记样本,如果Bert能够正确预测出被遮蔽的子词,能够正确推理出是否是上下句关系,那代表Bert确实学到了通用的语义信息,类似人类一样理解了语义。


微调简介

前文有提到微调就是在模型了解通用语义之后在一个特定数据集上再局部学习一次,具体而言微调是基于模型参数迁移的迁移学习,新的模型任务网络直接使用之前在其他数据集上训练保存下来的模型的参数来作为这一任务的初始化参数,然后在训练的过程中,依据新样本不断进行一些修改。这个过程就是微调fine-tuning。而Bert在实际应用中解决各种NLP问题,就是就是在海量自然语言上进行预训练得到各种不同的模型和参数,在特定的任务选取指定模型参数进行迁移,再在业务数据上微调的过程,这就是预训练微调的意义。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容