A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task

背景介绍

大量的带有标记的语料库,是构建具有良好阅读理解能理系统的基础前提。然而人工标注需要专业灵活的设计,耗费大量的人力和财力。本文主要用到的语料库还是Hemann等人在2015年发表的文章《Teaching Machine to Read and Comprehen》中构建的CNN/Daily Mail语料库,生成该数据集的代码。针对该数据集,本文着重分析什么水平的能力才能满足阅读理解需求。

任务介绍

任务模式如上图,每个样本包含(p,q,a)三种元素,分别对应passage、question、answer。
数据集简要分析如下:


模型介绍

为了更深入理解该数据集的本质,本文重要构建了两种模型是:传统基于特征的分类模型、端到端的神经网络模型(基于Hermannn的Attention Reader)。第一个模型主要目的在于探索进行RC任务时,那些特征的影响因素较大。

1.Entity-Centric Classifier

模型一

为了得到
\theta
,选取以下八个特征:

  1. entity e是否出现在passage中
  2. entity e是否出现在query中
  3. entity e在passage中出现的频率
  4. entity e在passage中首次出现的位置
  5. n-gram匹配:query中placeholder左右的词是否与passage中entity e左右的词匹配
  6. entity e和placeholder按位对齐后计算词距
  7. entity e和其他实体或动词,是否在q和p中同时出现
  8. 语义依赖匹配

2.End-to-End Neural Network

在Hermann的AS模型上改进:
主要过程分为三个部分:Encoding、Attention、Prediction


框架
Encoding
Attention

Prediction

Finally, the system adds a softmax functionon top of
W_a^To
and adopts a negative loglikelihoodobjective for training.

模型创新点

  • 计算query和contex相关度时采用bilinear term代替tanh layer
  • 拿到上下文权重向量o以后,直接用来预测答案,在AS中o,q又通过一个非线性层结合在了一起,验证表明这是多余的
  • AS中预测答案时,匹配词典\nu包括passage中所有的词,这里只考虑实体

第一个是模型的主要改进,后两者是为了简化模型。

结果分析

模型一:
特征ablation分析

可以看出 丢弃n-gram和frequency of e对模型准确率的影响最大,应该是最重要的两个影响因素。

模型二

捕获.PNG

结果表明,传统的特征匹配模型已经超过了当时绝大多数的模型效果,端到端的神经网络模型更是创造了新的state-of-the-art,并提高了5%以上。作者认为这样的结果已经接近准确率的天花板,数据集本身的问题限制了提升的空间,因此无需再研究更精致的模型,可以将重心转移到数据样本上。接下来作者采用抽样分析样本的方法探讨究竟是什么限制了准确率。

数据集分析

随机抽取100个样本,提前设定七种样本类型:



  • 可以看出5、6客观上人类本身都无法保证理解的问题占25%,机器也只能懵了。
  • 需要理解多句文本才能得到答案的问题只有2%。这为我们提供了新思路:把重心转移到寻找最匹配的单句文本,然后推理答案。

上图展示机器针对不同类问题的准确率。可以看出模型主要在paraphrasing、Partial clue这两类问题上体现出价值,也体现了深度学习方法比传统方法的优越性。

相关工作

参考文档

  1. AttentiveReader(Hermann et al., 2015) based on CNN and Daily Mail datasets
  2. MCTest (Richardson et al., 2013)主要是短篇的小说故事,并带有what, why, how, whose, which这些类型的问题,数据集共有660篇,每篇带有四个问题,对于这个数据集,目前比较好的方法还是依赖于人工构建出来的句法和语义特征并结合上一些附加的先验知识
  3. Children Book Test (Hill et al., 2016)从儿童故事书中抽出连续的21个句子,将前20句作为passage,目标是预测出第21句中缺失的词。对于预测动词和介词,利用语言模型或rnn并结合词的上下文信息是比较有效的,但对命名实体以及普通名词则需要利用全文的信息去做预测。对于该数据集,目前比较好的方法是基于窗口的记忆网络(window-based memory networks)
  4. bAbI (Weston et al., 2016)人工构建的数据集,包含20种不同的推理类型,主要侧重于推理、归纳、演绎的能力,目前许多种类型的记忆网络在这个数据集上能获得比较好的效果。但是这个数据集的词表很小,只有100~200个词,而且语言变化相对简单,与实际数据有一定差距。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容