BERT

主要架构

多层双向转换编码器：同Transformers，双向自注意机制

输入标记序列：能够明确地表示一个句子或者句对的序列，其中句子可以是连续文本任意的一部分。

输入

输入词嵌入是Token Embeddings,Segment Embeddings,Position Embeddings的总和。

词嵌入

[CLS]：特殊分类标记，对于NLP有很大的作用。

[SEP]：分隔符

预处理：在不同的预训练任务中用无标记的数据训练模型

1、MLM：由于标准的条件语言模型只可以从左到右或者从右到左进行训练（如果采用双向训练，该模型可以通过多重语境轻易的预测目标单词），因此出现了MLM。为了缓解预训练和微调之间的不匹配问题（被掩盖的标记不会出现在微调中），MLM不总是真正用[Mask]标记来替代被隐藏的词。

随机选择15%的token来做预测：

（1）80%的时间：用[Mask]标记来替代被隐藏的词。

（2）10%的时间：用随机标记来替代被隐藏的词。

（3）10%的时间：不做任何变化。

2、NSP( Next Sentence Prediction)：为了使得模型能够理解句子之间的关系，我们需要预训练一个能够轻松从任何单语语料库生成的二分类预测任务。具体地说，就是给定句子A和B，B有50%的可能是A的下一句（IsNext），也有50%的可能不是A的下一句（NotNext），这个地方体现了二分类的思想。

微调

先用预训练的参数初始化BERT，再根据具体下游任务的有标记的数据进行微调模型。这里有一点需要说明，就是尽管每个下游任务模型的初始值都相同，但经过微调后模型各不相同，因此经过预处理的模型具有广泛的应用范围，即具有一定的普适性。

Transformer中的自注意机制使得BERT可以通过调整出合适的输入和输出向量来处理各种下游任务。对于每个任务，我们只需要将该任务特定的输入和输出插入BERT模型并对所有参数进行端到端的微调。

特点

1、在不同的任务中有统一的架构，预训练架构和最终的下游架构基本类似。

2、是一个预训练语言模型，在预训练中使用深度双向语言表达以及自注意机制。

extractive summarization 抽取式摘要

abstractive summarization 生成式摘要

相关文献：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

应用：PASS——产品评论摘要的生成

任务难点：

1、对于不同的产品，摘要生成器往往偏爱运用通用的语言，使得摘要过于笼统和模板化。

2、当评论者对同一个产品具有对立的观点时，摘要有时会自相矛盾，前后不一。

为了应对以上两点问题，我们提出了一个新的系统——PASS（Perturb-and-Select Summarizer）来使得生成的摘要具有多样性和一致性（这里的一致性不仅仅指摘要与事实相符，还指该摘要不会出现自相矛盾的情况）。这个系统采用了一个大型的预训练的基于Transformer的模型（T5），并且这个模型还进行了稍许微调。在推断时对模型的输入增加系统扰动项这一操作是PASS的核心，这能够为每个产品生成多个不同的评论摘要。接着，我们根据期望的结果对这些摘要设计了排名方法，基本上避免了自相矛盾的问题。

主要架构

输入

预处理：在不同的预训练任务中用无标记的数据训练模型

微调

特点

应用：PASS——产品评论摘要的生成

推荐阅读更多精彩内容