「自然语言处理(NLP)论文推送」第三弹(含源码)806

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-6

引言

本篇主要给大家介绍两篇文章:
    一篇是清华大学发表的XQA,该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。
    第二篇是澳洲昆士兰阳光海岸发表的Katecheo,该篇文章构建了一个模块化系统,它可以轻易的部署在Kubernetes集群(当前很多大公司都会使用Kubernetes)上用作商用。

FirstBlood

TILE: XQA: A Cross-lingual Open-domain Question Answering Dataset
Contributor : 清华大学
Paper: https://www.aclweb.org/anthology/P19-1227
Code: https://github.com/thunlp/XQA

文章摘要

    开放式问答(OpenQA)的目的是通过文本检索和阅读理解来回答问题。近年来,许多基于神经网络的模型被提出,并在OpenQA中取得了良好的效果。然而,这些模型的成功依赖于大量的训练数据(通常是英语),而这些数据在许多其他语言中是不可用的,尤其是对于那些低资源的语言。因此,研究跨语言OpenQA是非常必要的。本文构建了一个用于跨语言OpenQA研究的新数据集XQA。它包括英语训练集以及其他八种语言的开发和测试集。此外,我们还为跨语言OpenQA提供了多种基线系统,包括两种基于机器翻译的方法和一种零距离跨语言方法(多语言BERT)。

文章两大看点

    1、引入了一个跨语言的OpenQA数据集XQA。它由英语、法语、德语、葡萄牙语、波兰语,中文,俄语、乌克兰语、泰米尔语各种语言的训练集、开发集、测试集组成。其中训练集包含了56,279对英语问答对以及相关文档。开发和测试集分别包含17,358对和16,973对问答对。所有的问题都是由各自为母语的人自然提出的,并可能反映出不同语言的文化差异。数据集词库样例如下图所示:

    2、构建了几个基线系统,这些系统使用来自公共可用库的多语言数据信息进行跨语言OpenQA,包括两种分别翻译训练数据和测试数据的方法和一种零距离跨语言的方法(多语言BERT (Devlin et al., 2019))。

OpenQA数据集

    维基百科各种语言的主页上提供了一个每日“你知道吗”框,其中包含来自维基百科编辑的几个事实性问题,以及相应答案的链接。这是一个很好的跨语言OpenQA源。我们从这些会话中收集问题,并从WikiData知识库中使用实体名称及其别名作为最佳答案。对于每个问题,检索BM25排名前10位的Wikipedia文章作为相关文档。

    在维基百科文章中,实体名称几乎总是出现在文档的开头。该模型可能忽略了相关文件中的真正证据,而只是简单地预测头几个单词。为了避免这种情况,我们从每个文档中删除第一段。我们总共收集了9种语言的90610个问题。对于英语,我们分别保留了大约3000个问题用于开发和测试集,并使用其他问题作为训练集。对于其他语言,我们将问题平均分为开发和测试集。每种语言的详细统计数据如下图所示:

基线系统

翻译基线方法

    跨语言OpenQA最直接的解决方案是将机器翻译系统和单语言OpenQA系统结合起来。在本文中,我们考虑了两种使用机器翻译系统的方法:首先,首先,将训练数据集从源语言翻译成目标语言,然后对翻译后的数据训练标准OpenQA系统;第二,翻译测试,使用源语言中的培训数据构建OpenQA系统,将问题和检索到的文章从目标语言翻译成源语言。对于OpenQA模型,我们选择了两个最先进的模型:Document-QA模型和BERT 模型。

零距离跨语言方法

    零距离跨语言方法对源语言和目标语言都采用统一的模型,用源语言中的标记数据进行训练,然后直接应用于目标语言。在本文中,我们选择了广泛使用的多语言BERT模型,因为它已经在SQuAD等阅读理解基准测试中被证明是成功的(Devlin et al., 2019)。多语言BERT是BERT的非语言版本,它使用维基百科中前100种语言的转储进行训练。与单语OpenQA模型类似,我们还可以使用共享标准化学习目标对多语BERT模型进行了微调。

实验结果    
XQA数据集整体结果

Double Kill

TILE: Katecheo: A Portable and Modular System for Multi-Topic Question Answering
Contributor : CV Digital Sunshine Coast, Queensland, Australia
Paper: https://arxiv.org/pdf/1907.00854v1.pdf
Code: https://github.com/cvdigitalai/katecheo

文章摘要

    引入了一个模块化的系统,可以部署在任何Kubernetes集群上,通过REST API回答问题。这个系统称为Katecheo,包括四个可配置模块,它们共同支持问题识别、将这些问题分类到主题、搜索知识库文章和阅读理解。我们使用从堆栈交换站点提取的公开可用的、预先训练的模型和知识库文章来演示系统。但是,用户可以将系统扩展到任意数量的主题或域,而不需要修改任何提供代码的模型。
    本篇文章主要偏向于应用,主要涉及集群部署

本文主要看点

    提出了一个基于Katecheo的便携式模块化阅读理解问题回答系统,试图减轻这种开发负担。该系统为开发人员提供了一种快速部署和易于扩展的方法,使他们能够将问答功能集成到应用程序中。katecheo包含四个可配置模块,它们共同支持问题识别、问题主题分类、搜索知识库文章和阅读理解。这些模块被绑定在一个推理图中,这个推理图可以通过REST API调用来调用。从栈交换站点中提取预训练的模型和知识库文章。但是,用户可以将系统扩展到任意数量的主题或域,而不需要修改模型服务代码。该系统的所有组件都是开放源码的,并且在Apache 2许可协议下公开可用。

系统模型概要

    使用Katecheo,目标之一是创建一个问答系统,它比那些依赖于精心策划的回答更灵活,同时比完全开放的领域问答系统更有针对性。该系统包括文档检索(或我们所说的“知识库搜索”)和阅读理解,但只包含与特定主题(例如,食物或娱乐)对应的一组精选知识库文章。将问题文本输入Katecheo系统,通过四个模块进行处理:(1)问题识别,(2)主题分类,(3)知识库搜索,(4)阅读理解。整个系统逻辑如下图所示:

    (1)问题标识符使用基于规则的方法进行问题标识。我们利用问号和5W1H单词的存在来确定输入是否为一个问题。根据我们的测试,这提供了相当高的性能(90%以上的准确性),并且不会阻碍整体性能。
    (2)问题主题分类:除了每个主题之外,用户还向系统提供一个预先训练的命名实体识别(NER)模型,该模型用于识别该主题中的实体。然后,主题分类器使用这些预训练的模型来确定输入问题是否包含来自用户提供的主题之一的实体。如果是,主题分类器将问题分类到该主题中。当两个主题冲突时,系统当前暂停处理并返回一个空答案。
    (3)一旦确定了主题,就会从一组与用户提供的主题对应的用户提供的知识库文章中搜索合适的知识库文章来匹配问题。最终计划将这个知识库搜索更新为类似于Chen etal的方法。使用双图哈希和TF-IDF。
    (4)atecheo的最新版本使用了双向注意力流(BiDAF)模型来进行阅读理解(Seo等,2017)。该BiDAF模型包括基于卷积神经网络(CNN)的字符级嵌入层、使用预训练手套嵌入的单词嵌入层、基于长短时记忆网络(LSTM)的上下文嵌入层、“注意流层”和包含双向LSTMs的建模层。我们使用的是AllenNLP (Gardner et al., 2017)库中提供的一个预训练版本的BiDAF

ACED

GitHub论文合集

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容