Bert系列：Bert、Transformer、预训练模型、微调简单入门介绍

摘要：Bert，Transformer，预训练模型

内容摘要

Bert起源背景简介
Bert、Transformer、预训练模型、微调的关系
Bert和Transformer的区别联系
预训练模型简介
微调简介

Bert起源背景简介

Bert是2018年10月由Google AI研究院提出的一种预训练模型。BERT的全称是Bidirectional Encoder Representation from Transformers，即基于Transformer的双向编码表征算法，Bert在提出之初在各大NLP任务中刷新了性能表现记录，被认为是自然语言处理领域的一个里程碑。

Bert、Transformer、预训练模型、微调的关系

Bert通常与Transformer，预训练模型，微调一起被提及，简单而言Bert基于Transformer结构，提出了预训练模型这种新的方式思想，通过这种预训练模型方式，给定一个下游NLP任务进行微调，即可很好地完成则个任务。
具体而言，Bert是在Transformer的Encoder层网络结构的基础之上，通过海量数据的无监督学习训练得到的一组网络参数（如下图所示），该网络参数学习到了类似人类理解的通用的语义信息，下一步就是将这组网络参数迁移到下游具体的任务，比如文本分类，通过具体任务的样本再对Bert的参数做微调即可，可想而知如果在预训练阶段就已经掌握了语义知识，那下游任务的训练将变得更加容易。

Bert基于Transformer在海量样本无监督训练得到

Bert和Transformer的区别联系

两者的联系前文有提到Bert基于Transformer，实际上Bert网络结构完全套用了Transformer的Encoder层作为模型主干，Bert整体上就是由多层的Transformer Encoder堆叠所形成，Bert命名中的双向Bidirectional也就是Transformer中的self-attention机制的体现。
两者的区别首先完成任务的方式不同，Bert是预训练模型，期望在海量数据上学习理解字词的通用语义，再灌给下游各种个性化任务应用，而Transformer更多是类似于CNN，RNN的网络模型，直接端到端学习各种任务和样本，每个任务从头到尾建模。
再者Bert在处理输入层时对原始的Transformer论文方法做了改进，Bert支持输入一对句子，通过预测下一句是否是前一句的下一句来让模型参数学习语义（NSP任务），由此Bert加入了Segment Embedding专门用来辅助模型学习语义顺序，辅助的Bert在原始输入句子上做了标记，其中[SEP]代表句子结尾或者两个上下句的间隔，[CLS]在句子开头代表一个分类任务的占位符，用于判断后句是否是上句的下句的表征依据。另外Bert改进了Transformer的sin-cos位置编码，采用可学习式代替sin-cos这种固定式编码。

Bert的输入层和Transformer的差异

预训练模型简介

前文提到Bert的一大贡献是提出了预训练思想，在此之前NLP任务都是基于某个特定的中小规模的数据集样本，使用特定的模型比如LSTM，Transformer进行拟合训练，都是特定任务的独立建模，而预训练模型的思想是不需要网络模型能够拟合样本降低该样本在验证测试集上的loss损失，而是从底层源头出发，在其他海量数据集上类似人类一样真正能够理解语义，让机器能够读懂字词而不是一味的为了loss最低，在掌握了通过的语言理解能力之后，再根据特定样本进行参数微调，相当于再局部学习一次。
Bert是如何进行预训练的？Bert采用NSP，MLM两个任务让模型在海量数据中学到知识

NSP：Next Sentence Prediction，下一句预测，即给出两个句子，需要判断第二个句子是不是第一个句子的后一句内容，Bert会50%几率从语料中随机抽一条其他不连续句子，50%几率选择下一句来让模型判断学习
MLM：Mask Language Model，遮蔽语言模型，Bert随机遮蔽掉一个句子中的子词，使用其他上下文词预测出被遮蔽的词，相当于完型填空

NSP和MLM任务

NSP和MLM任务如上图所示，两个任务都不需要人工标记，原始的语料句子就是标记样本，如果Bert能够正确预测出被遮蔽的子词，能够正确推理出是否是上下句关系，那代表Bert确实学到了通用的语义信息，类似人类一样理解了语义。

微调简介

前文有提到微调就是在模型了解通用语义之后在一个特定数据集上再局部学习一次，具体而言微调是基于模型参数迁移的迁移学习，新的模型任务网络直接使用之前在其他数据集上训练保存下来的模型的参数来作为这一任务的初始化参数，然后在训练的过程中，依据新样本不断进行一些修改。这个过程就是微调fine-tuning。而Bert在实际应用中解决各种NLP问题，就是就是在海量自然语言上进行预训练得到各种不同的模型和参数，在特定的任务选取指定模型参数进行迁移，再在业务数据上微调的过程，这就是预训练微调的意义。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,734评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,931评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,133评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,532评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,585评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,462评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,262评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,153评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,587评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,792评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,919评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,635评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,237评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,855评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,983评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,048评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,864评论 2赞 354

Bert系列：Bert、Transformer、预训练模型、微调 简单入门介绍