「自然语言处理(NLP)论文推送」第四弹(含源码)807

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-7

引言

    本次主要给大家介绍两篇文章。第一篇文章主要讲的是会话响应生成,其主要针对的是当前神经网络对话系统倾向于在语料库中生成响应的问题,这样不利于会话响应的多样性。第二篇文章主要针对的是模型会话一致检测的问题,怎么才能评估呢?作者提出一种自动在数据集提取实例进行评估的方法。

First Blood

TILE: Boosting Dialog Response Generation
Contributor : Carnegie Mellon University
Paper: https://www.aclweb.org/anthology/P19-1005
Code: None

文章摘要

    神经模型已成为对话响应生成的重要方法之一。然而,它们始终倾向于在语料库中生成最常见和通用的响应。针对这一问题,我们设计了一种基于boost的迭代训练过程和集成方法。该方法以不同的训练和解码范式为基础,包括基于互信息的解码和基于奖励增强的最大似然学习。实证结果表明,本文方法可以显著提高所有基本模型所产生的响应的多样性和相关性,并得到客观测量和人类评价的支持

本文创新点介绍

    我们相信对话响应的生成也可以从boost中受益。在这项工作中,我们根据最近发展起来的促进生成模型的理论,设计了一个促进响应生成的原则框架。此外,我们将boost与不同的训练和/或解码范式相结合,并通过实验证明,无论是在定量还是定性评估方面,boost都得到不错的效果。

boost应用于对话生成的实际问题考虑

数据权重

    在生成式增强方法中,数据的权重与响应的置信度成反比。然而,在实验中发现,一般的反应并不总是有较低的置信度。如果没有正确地处理,这些响应最终会得到增强,并在下一次迭代中成为频繁生成的响应。
    为此我们使用一个简单的基于规则的鉴别器。在每次迭代中,我们维护一个最频繁生成响应的列表C_t。我们选择一个二元函数sim(y,z)来判断两个响应y,z是否相似。鉴别器定义为


    其中第t轮的数据权重为:

模型合并

    在解码时,由于文本数据的离散性,对于具有最高概率(或互信息)的响应的优化是难以处理的,因此我们使用以下启发方式。利用波束搜索从单个最优模型中生成候选响应。然后,所有的模特都会给候选人打分,平均分最高的模特会被选中。模型权重α_t将制服。由于每个模型对不同权重的数据进行训练,其非标准化概率密度估计可能具有不同的尺度。因此,在解码时,每个模型的得分都是z归一化的,并根据训练数据计算出平均值和标准差。

算法细节介绍

    对于RAML,奖励函数基于TD-IDF匹配,即每个单词的词频与逆文档频率乘积的和除以长度。其基本原理是激励模型在其生成代中包含关键内容词。根据经验,我们观察到,即使没有提高,有上述奖励的RAML也能比MLE基线产生更好的反应。温度参数τ是0.1。为了近似RAML目标中的期望项,在开始时,从训练数据中为每个消息-响应对选择三个附加的激励最高的响应。为了进行公平的比较,我们不会在下面的迭代中采样新的响应。

实验结果

定量评估

    为了测量响应的多样性,我们使用10个簇对它们的嵌入进行k-means聚类,并测量惯性。惯性越大,多样性越强。定量评估结果图如下:

定性评估

    为了确保多样化的响应与增强之前一样相关,我们要求5个注释器对每个基本模型的100个示例的随机抽样子集与增强后的对应模型进行评估。每个上下文都对应两个响应——一个来自基本模型,另一个来自增强模型。注释器被要求选择最合适的响应,或者如果它们相等,则打成平手。结果如表1所示。

    平均来看,在38%到47%的情况下,注释者没有表现出任何偏好,并且在36%到45%的试验中,增强模型优于基本模型。请注意,所有单独的测试都显示注释器更喜欢增强模型而不是基本模型,但有一种情况例外,注释器更经常地选择MMI基本模型而不是增强模型。

Double Kill

TILE: Are Red Roses Red? Evaluating Consistency of Question-Answering Models
Contributor : Microsoft Research
Paper: https://www.aclweb.org/anthology/P19-1621
Code: https://github.com/marcotcr/qa_consistency

文章摘要

    虽然目前对答题系统的评估将预测单独对待,但我们需要考虑预测之间的关系来衡量真正的理解。如果一个模型在玫瑰是红色的前提下,对“玫瑰是红色的吗?”这个问题的答案回答的是“否”,那么它就应该受到惩罚。那么本文提出了一种方法来自动地从两个QA数据集(VQA和SQuAD)中提取实例的这种含义,然后用它们来评估模型的一致性。认为的评估表明,这些产生的影响是良好的和有效的。一致性评估提供了对现有模型缺陷的洞察能力,并通过含意增强数据进行再训练,提高了对人工和人工生成影响的一致性。

本文主要看

    本文建议对QA系统进行评估,以度量模型预测的一致性程度。
    1、首先自动生成数据集中现有实例所暗示的新问答对(如下图所示)。


    与原始实例相比,人工评估验证了生成的含义是有效的,并且形式良好,因此可以用于评估和深入了解VQA和班组的模型。
    2、提出了一个简单的数据扩充过程,其结果是模型几乎与原始数据上的原始模型一样精确,而通过我们的含义和人类生成的含义进行度量时,模型更加一致。

含义生成

    让QA数据集中的一个实例用(c,q,a)表示,分别表示上下文(图像或段落)、问题和答案。我们将逻辑蕴涵定义为(c,q,a)→(c,q^{'},a^{'}),即a对q的回答意味着a^{'}是相同上下文下问题q^{'}的答案。我们现在提出一个基于规则的系统,它接受(q,a)并生成(q,a)→(q^{'},a^{'})

Visual QA

    (q,a)对在VQA中的通常有正面和负面含义,我们将其编码为三种类型的yes/no含义,如下图所示:

SQuAD

    我们使用了[Demszky]的QA2D系统。将a (q,a)转换为陈述性形式d,然后使用d的依赖关系解析提取关于主语(Subj)、直接宾语(Dobj)、形容词修饰词(Amod)或介词短语(Prep)的问题。为了决定引入哪个WH-word,我们使用NER tagger和试探法,例如,如果答案是“in DATE”或“in LOC”,那么WH-word分别是“when”和“where”

一致性评估

    我们希望生成的含义满足以下条件:(1)问题格式良好,(2)答案正确,(3)隐含是有效的,即如果生成一个隐含(q,a)→(q^{'},a^{'}),那么a到q的答案实际上意味着a^{'}就是q^{'}的答案。如果这些得到满足,我们可以评估的一致性预测在这些数据集的大部分(67.3%的VQA和73.2%的SQuAD)通过(q,a)实例预测正确的模型,产生影响(q,a)→(q^{'},a^{'})和测量的频率模型预测正确生成的问题。

实验结果

含义质量评估

    我们要求工作人员评估给定问题和上下文的答案的正确性()。上图中的结果表明,所有标准的平均得分在原始实例和生成的暗示之间几乎没有区别,这表明暗示问题的形式很好,答案是正确的。

含义有效性评估

    为了检查(q,a)是否真的意味着(q^{'},a^{'}),我们在没有上下文的情况下向工作人员显示(q,a),并让他们回答隐含问题q^{'},假设原始答案a是正确的。如果(q,a)→(q^{'},a^{'}),即使没有图像或段落,工人也应该能够正确地回答q^{'}。如下图所示:

评估QA模型的一致性

    在得出我们生成的含义是高质量的并且通常是有效的结论之后,我们继续使用它们来评估模型的逻辑一致性。如下图所示:

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容