BERT Paper Review

BERT-Google Code

Pre-training of Deep Bidirectional Transformers for Language Understanding

EMLo的热度~~还没降下来~~（凉了），紧接着OpenAI GPT和ELMo的Google BERT，在很多个NLP任务中都获得了大幅度的提升，又成了NLP的一个~~牛逼疯了~~大热点。
下面记录一下对论文的理解和笔记。

1、相关知识

预训练模型，BERT是一个预训练模型。简单的来说就是一个模型通过大数据集A来训练，学习到一个关于数据集A的参数。当进行数据集B的任务时，先调用关于A的参数作为初始参数，然后再通过数据集B进行再训练，并调整参数，逐渐调整成为适合数据集B的模型，也就是“fine-tuning（微调）”。
这个特性的特点就是可以用很少的数据集B就能训练得到很好的训练参数，即，一定程度上的继承了在数据集A训练好的参数，通过微调使之快速适应数据集B。而且通常这样做，会得到比只用数据B训练得到的模型参数更好。

2、BERT

主要贡献：双向预训练对语言表示的重要性，使用MLM（Masked Language Model，遮蔽语言模型），语句级训练NextSentence任务

论文提出了两种不同Size的BERT模型：
BERTbase：L=12，H=768，A=12，TotalParams = 110M（Base版本的提出意在与GPT模型有相同的模型size，用以对比参照）
BERTlarge：L=24，H=1024，A=16，TotalParams = 340M
L：指网络的层数
H：指隐层的单元数
A：指使用的自注意力的头数（Attention Is All You Need)
两者的差别就是大小不同，在后面的实验结果部分，BERTlarge版本大概比base版本要再高约1% ~ 2%左右，在CoLA数据集差8%左右，RTE在4%左右。

模型结构对比

OpenAI GPT

OpenAI GPT就是只用到了从左往右的上下文信息来做训练。

ELMo

而ELMo使用的是两个独立的单向LSTM来做训练。据说ELMo使用时效率比较低，而且很快又被提出的BERT强势压在头上，所以ELMo小火之后，就没然后了。

BERT

BERT的结构主要是基于多层多个双向Transformer（从左到右和从右到左）。Transformer在Attention论文中应用MT（机器翻译）任务时用了6层的Transformer。从结构上来讲，Transformer之间用的是Residual Connection，并且有batch normarlization这种“常规操作”，所以得以实现多层网络。而疑问在于多层的网络结构可以在NLP任务中学习到什么特征？有论点认为低层网络偏向于语法特征学习，高层网络偏向于语义特征学习，但这还没有得到论证。

Task1：MLM(遮蔽语言模型)

BERT创新性的一个亮点就是对输入数据的处理，“MLM”，即遮蔽语言模型。BERT通过对输入句子15%的token进行随机遮蔽（随机遮蔽的原因是为了减少未来fine-tuning时遇到未见词的可能性），然后将masked token的位置输出的最终隐层向量送到softmax，来预测masked token。而对于遮盖住的token在NLP下游任务中不存在这种Mask标记，因此为了解决这个问题，作者按照一定的比例来进行输入原词或者输入某个随机词。
文中例如：My dog is hairy

80%概率：用[mask] 标记替换：My dog is hairy -->My dog is [mask]
10%概率：随机词替换要标记位置：My dog is hairy -->My dog is pig.
10%概率：不做替换操作：My dog is hairy -->My dog is hairy. (无替换）
Transformer
Transformer已经提到，是来自于同是Google提出的《Attention Is All You Need》，是一种可以替代CNN和RNN的新架构，用来实现MT任务。CNN处理文本的缺陷是，卷积操作先天不适合用于文本序列操作，RNN没有并行化，很容易超出内存限制。

Transformer 结构

上图就是Transformer的结构图，分成左边Nx的encoder部分和右边Nx的decoder部分，相比较于RNN+Attention常见的encoder-decoder之间的Attention，还多出encoder和decoder内部的self-attention。每个Attention都有Multi-Head特征，最后通过Position encoding加入没有考虑过的位置信息。
Multi - Head Attention
将一个词的vector，切分成h个维度，求attention相似度（点积、cosine、MLP）时每个h维度计算。由于单词映射在高维空间作为向量形式，每一维空间都可以学习到不同的特征，相邻空间所学到的结果更相似，相较于全体空间放到一起更具合理性。比如对于vector-size = 512的词向量，取h=8，每64个空间做一个Attention，学到的结果更细化，更合理（即高维空间中的相邻维度具有的联系更紧密，我猜）。
Self - Attention
每个词位置的词都可以无视距离和方向，有机会和句子词序列中的每个词进行encoding。两个词的联系越强，self-attention的值越大。
Position Encoding
因为Transformer既没有RNN的循环单元也没有CNN的卷积操作，但序列顺序信息是非常重要的特征。
Transformer计算token的位置信息（这里使用正弦波），类似信号的周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。
PE (pos,2i) = sin(pos/10000 2i/d model )
PE (pos,2i+1) = cos(pos/10000 2i/d model )
但BERT直接训练一个Position Embedding 来保留位置信息，每个位置随机初始化一个向量，加入模型训练，最后就得到一个包含位置信息的embedding（emmmm）。BERT最后这个Position Embedding 和 Word Embedding选择使用 直接拼接。

Task2：Next Sentence Prediction

句子级别的连续性预测任务，即预测输入BERT的两端文本是否为连续的文本。训练时，输入模型的第二句以50%的概率从全部文本中随机抽取，剩下50%的概率选取第一个句子的后续一个句子作为输入。（其实就是做句子级匹配的二分类）
即如下：
[Input]:[CLS]太阳天[mask]照[SEP]我[mask]去学校[SEP]
[Label]:IsNext
[Input]:[CLS]太阳天[mask]照[SEP]交给警察[mask]叔手里面[SEP]
[Label]:NotNext
（虽然这个训练任务非常的简单，但是后来证明这项训练任务对QA和NLI都极有帮助）

Segment Embedding

BERT Input Representation

The input embeddings is the sum of the token embeddings, the segmentation embeddings and position embeddings.
即直接拼接各个Embedding组合。

3、迁移策略

下游NLP任务分类：
a). 序列标注：分词、NER、语义标注…
b).分类任务：文本分类、情感识别…
c).句子关系判断：QA、自然语言推理、文本蕴含…
d).生成式任务：机器翻译、文本摘要、文本生成…
BERT 将传统大量在下游具体的NLP任务中做的操作转移到预训练词向量中，在获得BERT词向量后，最终只需要在词向量上加简单的MLP或线性分类器即可。

4、GLUE语料集

实验数据以及对应的NLP任务

MNLI：蕴含关系推断
QQP：问题对是否等价
QNLI：句子是都回答问句
SST-2：情感分析
CoLA：句子语言性判断
STS-B：语义相似
MRPC：句子对是都语义等价
RTE：蕴含关系推断
WNLI：蕴含关系推断

References:
BERT Paper
Attention Paper
Attention Is All You Need 阅读笔记
 BERT的理解
 彻底搞懂BERT
BERT介绍