来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-4
引言
本次推送主要有三篇文章为大家分享(都带有源码哦~),第一篇是百度公司发表的,主要讲述了ERNIE2.0语言理解预训练框架。第二篇是华盛顿大学发表的一篇关于BERT预训练模型改进方法。第三篇是石溪大学发表的一篇关于回答英语复杂问题文章,其主要是对KALM进行了改进。
FirstBlood
TILE: ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
Contributor : Baidu(百度)
Paper: https://arxiv.org/pdf/1907.12412v1.pdf
Code: https://github.com/PaddlePaddle/ERNIE
文章摘要
目前的预训练过程主要是对模型进行训练,通过几个简单的任务来掌握单词或句子的共现。然而,在训练语料库中除了共现信息外,还存在其他有价值的词汇、句法和语义信息,如命名实体、语义亲密度和语篇关系等。句子顺序和句子之间的邻近性等信息使模型能够学习结构感知表示,在文档级别上的语义相似性或句子之间的话语关系允许模型学习语义感知表示。为了发现训练语料库中所有有价值的信息,无论是词汇、句法还是语义表示,我们提出了一个连续的预训练框架ERNIE 2.0,该框架通过持续的多任务学习来构建和学习预训练任务。
ERNIE框架介绍
ERNIE框架支持随时引入各种定制任务。这些任务共享相同的编码网络,并通过多任务学习进行训练。这种方法使得跨不同任务的词汇、句法和语义信息编码成为可能。此外,当给定一个新任务时,我们的框架可以根据它所掌握的以前的训练参数进行增量地分布式训练。具体框架图如下:
ERNIE框架主要两大看点
1、文章提出来的预训练框架ERNIE2.0,它可以支持自定义训练任务和多任务预训练的渐进式训练。
2、为了验证该框架的有效性,本文构造了几个非监督语言处理任务。实验结果表明,ERNIE 2.0在包括英语GLUE基准测试和几个中文任务在内的16个任务上都比BERT和XLNet有显著的改进。
ERNIE2.0模型结构介绍
Transformer Encoder
该模型采用多层转换器作为基本编码器,与其他预训练模型如suchasgpt、BERT和xlm一样。转换器可以通过自注意捕获序列中每个token的上下文信息,并生成上下文嵌入序列。给定一个序列,将特殊的分类嵌入[CLS]添加到序列的第一个位置。此外,在多个输入段任务的段间隔中添加符号[SEP]作为分隔符。
Task Embedding
该模型提供任务嵌入以调节不同任务的特性。我们用id从0到N表示不同的任务。每个任务id分配给一个惟一的任务嵌入。将相应的令牌、段、位置和任务嵌入作为模型的输入。我们可以使用任何任务id在微调过程中初始化我们的模型。模型结构如下图所示。
Double Kill
TILE: RoBERTa: A Robustly Optimized BERT Pretraining Approach
Contributor : University of Washington(华盛顿大学)
Paper: https://arxiv.org/pdf/1907.11692v1.pdf
Code: https://github.com/pytorch/fairseq
文章摘要
语言模型的预训练带来了效果显著的性能提升,但不同方法之间的比较是具有挑战性的。训练需要昂贵的计算机资源,通常在不同大小的私有数据集上完成,并且,正如我们将要展示的,超参数的选择对最终结果有重要的影响。我们对BERT 预训练 (Devlin et al., 2019)进行了一项复制研究,该研究仔细衡量了许多关键超参数和训练数据大小的影响。我们发现BERT的训练明显不足,为此我们提出一种改进的训练BERT模型的方法,它的名字叫 RoBERTa。我们当前的模型可以当前提出的BERT方法进行匹敌,并在GLUE, RACE、SQuAD上达到了最好的效果。这些结果说明设计选择的重要性,我们还对对最近报告的改进来源提出了问题。我们开放了我们自己的模型和代码。
RoBERTa介绍
我们对Bert模型做了进一步的修改,其中主要修改的如下:
1、对模型进行更长时间、更大批量、更多数据的训练;
2、删除下一个句子的预测目标;
3、长序列训练;
4、动态改变应用于训练数据的掩蔽模式。我们还收集了一个与其他私有数据集大小相当的新数据集(CC-NEWS),以便更好地控制训练集大小效果。
RoBERTa主要看点
1、提出了一套重要的BERT设计选择和训练策略,并引入了能够提高下游任务绩效的备选方案;
2、使用了一个新的数据集CCNEWS,并确认使用更多的数据进行预训练可以进一步提高下游任务的性能;
3、我们的训练改进表明,在正确的设计选择下,掩模语言模型预训练与其他所有最近发表的方法相比具有竞争力。
4、发布了在PyTorch中实现的模型、预训练和微调代码。
Triple Kill
TILE: Querying Knowledge via Multi-Hop English Questions
Contributor :Stony Brook University(石溪大学)
Paper: https://arxiv.org/pdf/1907.08176v1.pdf
Code: https://github.com/tiantiangao7/kalm-qa
文章摘要
知识规范的固有困难和缺乏训练有素的专家是使基于知识表示和推理(KRR)范式的智能系统普及的关键障碍之一。使用自然语言(特别是受控自然语言(CNL))进行知识和查询创作是一种很有前途的方法,可以使未经训练的领域专家创建正式的知识并对其进行查询。在之前的工作中,我们引入了KALM系统(知识创作逻辑机),该系统支持知识创作(和简单查询),具有很高的准确性,这是目前通过机器学习方法无法实现的。本文对KALM的答题方面进行了扩展,介绍了一种能够回答复杂得多的英语问题的KALM- qa。我们展示了KALM-QA在一个名为MetaQA的与电影相关的广泛问题集上达到了100%的准确性,其中包含近29,000个测试问题和260,000多个培训问题。我们将此与已发表的机器学习方法进行了对比,后者远远没有达到这一高度。它正在考虑接受TPLP。。
KALM-QA介绍
1、本文引入了KALM- qa,这是KALM的一个扩展,它支持多跳问题回答,而不是在(Gao et al. 2018a)中只支持一跳查询。多跳问题的回答涉及连接(在数据库意义上)多个关系,其中一些关系可以是自连接。因此,回答一个3跳查询需要加入三个关系,比如“谁写的电影与电影《安娜斯塔西娅》中的演员共享”,以及“谁是电影中的演员也出现在电影《荒野》中的编剧”。“我们使用MetaQA数据集(Zhang et al. 2018a),其中包含近29,000个多跳测试查询,并表明与机器学习方法的低得多的准确性相比,KALM-QA的准确率达到了100% (Zhang et al. 2018b)。
2、详细描述了由结构学习增量生成的KALM-QA框架语义分析器。这些细节没有出现在以前的出版物中。最后,我们注意到MetaQA语句使用的语法比ACE所接受的更通用。