「自然语言处理(NLP)论文推送」第一弹

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-4

引言

    本次推送主要有三篇文章为大家分享(都带有源码哦~),第一篇是百度公司发表的,主要讲述了ERNIE2.0语言理解预训练框架。第二篇是华盛顿大学发表的一篇关于BERT预训练模型改进方法。第三篇是石溪大学发表的一篇关于回答英语复杂问题文章,其主要是对KALM进行了改进。

FirstBlood

TILE: ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
Contributor : Baidu(百度)
Paper: https://arxiv.org/pdf/1907.12412v1.pdf
Code: https://github.com/PaddlePaddle/ERNIE

文章摘要

    目前的预训练过程主要是对模型进行训练,通过几个简单的任务来掌握单词或句子的共现。然而,在训练语料库中除了共现信息外,还存在其他有价值的词汇、句法和语义信息,如命名实体、语义亲密度和语篇关系等。句子顺序和句子之间的邻近性等信息使模型能够学习结构感知表示,在文档级别上的语义相似性或句子之间的话语关系允许模型学习语义感知表示。为了发现训练语料库中所有有价值的信息,无论是词汇、句法还是语义表示,我们提出了一个连续的预训练框架ERNIE 2.0,该框架通过持续的多任务学习来构建和学习预训练任务。

ERNIE框架介绍

    ERNIE框架支持随时引入各种定制任务。这些任务共享相同的编码网络,并通过多任务学习进行训练。这种方法使得跨不同任务的词汇、句法和语义信息编码成为可能。此外,当给定一个新任务时,我们的框架可以根据它所掌握的以前的训练参数进行增量地分布式训练。具体框架图如下:


ERNIE2.0框架图

ERNIE框架主要两大看点

    1、文章提出来的预训练框架ERNIE2.0,它可以支持自定义训练任务和多任务预训练的渐进式训练。
    2、为了验证该框架的有效性,本文构造了几个非监督语言处理任务。实验结果表明,ERNIE 2.0在包括英语GLUE基准测试和几个中文任务在内的16个任务上都比BERT和XLNet有显著的改进

ERNIE2.0模型结构介绍

Transformer Encoder

    该模型采用多层转换器作为基本编码器,与其他预训练模型如suchasgpt、BERT和xlm一样。转换器可以通过自注意捕获序列中每个token的上下文信息,并生成上下文嵌入序列。给定一个序列,将特殊的分类嵌入[CLS]添加到序列的第一个位置。此外,在多个输入段任务的段间隔中添加符号[SEP]作为分隔符。

Task Embedding

    该模型提供任务嵌入以调节不同任务的特性。我们用id从0到N表示不同的任务。每个任务id分配给一个惟一的任务嵌入。将相应的令牌、段、位置和任务嵌入作为模型的输入。我们可以使用任何任务id在微调过程中初始化我们的模型。模型结构如下图所示。


多任务预训练结构图

Double Kill

TILE: RoBERTa: A Robustly Optimized BERT Pretraining Approach
Contributor : University of Washington(华盛顿大学)
Paper: https://arxiv.org/pdf/1907.11692v1.pdf
Code: https://github.com/pytorch/fairseq

文章摘要

    语言模型的预训练带来了效果显著的性能提升,但不同方法之间的比较是具有挑战性的。训练需要昂贵的计算机资源,通常在不同大小的私有数据集上完成,并且,正如我们将要展示的,超参数的选择对最终结果有重要的影响。我们对BERT 预训练 (Devlin et al., 2019)进行了一项复制研究,该研究仔细衡量了许多关键超参数和训练数据大小的影响。我们发现BERT的训练明显不足,为此我们提出一种改进的训练BERT模型的方法,它的名字叫 RoBERTa。我们当前的模型可以当前提出的BERT方法进行匹敌,并在GLUE, RACE、SQuAD上达到了最好的效果。这些结果说明设计选择的重要性,我们还对对最近报告的改进来源提出了问题。我们开放了我们自己的模型和代码

RoBERTa介绍

    我们对Bert模型做了进一步的修改,其中主要修改的如下:
    1、对模型进行更长时间、更大批量、更多数据的训练;
    2、删除下一个句子的预测目标;
    3、长序列训练;
    4、动态改变应用于训练数据的掩蔽模式。我们还收集了一个与其他私有数据集大小相当的新数据集(CC-NEWS),以便更好地控制训练集大小效果。

RoBERTa主要看点

    1、提出了一套重要的BERT设计选择和训练策略,并引入了能够提高下游任务绩效的备选方案;
    2、使用了一个新的数据集CCNEWS,并确认使用更多的数据进行预训练可以进一步提高下游任务的性能;
    3、我们的训练改进表明,在正确的设计选择下,掩模语言模型预训练与其他所有最近发表的方法相比具有竞争力。
    4、发布了在PyTorch中实现的模型、预训练和微调代码。

Triple Kill

TILE: Querying Knowledge via Multi-Hop English Questions
Contributor :Stony Brook University(石溪大学)
Paper: https://arxiv.org/pdf/1907.08176v1.pdf
Code: https://github.com/tiantiangao7/kalm-qa

文章摘要

    知识规范的固有困难和缺乏训练有素的专家是使基于知识表示和推理(KRR)范式的智能系统普及的关键障碍之一。使用自然语言(特别是受控自然语言(CNL))进行知识和查询创作是一种很有前途的方法,可以使未经训练的领域专家创建正式的知识并对其进行查询。在之前的工作中,我们引入了KALM系统(知识创作逻辑机),该系统支持知识创作(和简单查询),具有很高的准确性,这是目前通过机器学习方法无法实现的。本文对KALM的答题方面进行了扩展,介绍了一种能够回答复杂得多的英语问题的KALM- qa。我们展示了KALM-QA在一个名为MetaQA的与电影相关的广泛问题集上达到了100%的准确性,其中包含近29,000个测试问题和260,000多个培训问题。我们将此与已发表的机器学习方法进行了对比,后者远远没有达到这一高度。它正在考虑接受TPLP。。

KALM-QA介绍

    1、本文引入了KALM- qa,这是KALM的一个扩展,它支持多跳问题回答,而不是在(Gao et al. 2018a)中只支持一跳查询。多跳问题的回答涉及连接(在数据库意义上)多个关系,其中一些关系可以是自连接。因此,回答一个3跳查询需要加入三个关系,比如“谁写的电影与电影《安娜斯塔西娅》中的演员共享”,以及“谁是电影中的演员也出现在电影《荒野》中的编剧”。“我们使用MetaQA数据集(Zhang et al. 2018a),其中包含近29,000个多跳测试查询,并表明与机器学习方法的低得多的准确性相比,KALM-QA的准确率达到了100% (Zhang et al. 2018b)。
    2、详细描述了由结构学习增量生成的KALM-QA框架语义分析器。这些细节没有出现在以前的出版物中。最后,我们注意到MetaQA语句使用的语法比ACE所接受的更通用。

ACED

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • 本文上两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(中) 4.6 Bidirectional Encoder...
    weizier阅读 6,413评论 1 22
  • 本文另两篇系列 NLP的巨人肩膀(上) NLP的巨人肩膀(下) 3. 梯子的一级半 除了在word级别的embed...
    weizier阅读 6,586评论 0 18
  • 1. 简介 一个非常简单的框架,用于最先进的NLP。由Zalando Research开发。 Flair是什么: ...
    blade_he阅读 3,263评论 0 50
  • 三月三日禹王台, 绿树红花春光来。 儿童拿笔画纸鸢, 刚飞上天往地栽。
    Ryanta阅读 204评论 0 0
  • 今天天气预报高温达到38度,下了夜班赶紧回家,小妮三宝吹着空调还没起床,叫醒他们说早饭自己解决,我上了一夜班又热又...
    缘来是你Z阅读 273评论 0 0