开放领域问答泛读系列(二)—— Denoising Distantly Supervised Open-Domain Question Answering 阅读笔记

一、写在前面的话

上一篇文章提到,针对目前的开放域问答任务都是严重依赖于提前准备好的文章和段落,而不是如同日常生活中海量的文章这一问题,陈丹琦提出了一种开放域自动问答系统(DrQA)。DrQA整体分为两部分,Document Retriever用于从海量文章中搜寻相关文章,Document Reader对这些相关文章的段落做精读。但Document Retriever很有可能会引入存在问题提及的信息但其实和问题并不相关的噪声段落,故本篇文章在DrQA对该部分进行了排序,即对每个段落给出一个与问题相关的权重。


二、论文模型

2.1 整体架构

模型可以分成段落选择器(Paragraph Selector)和段落阅读器(Paragraph Reader)两部分,Paragraph Selector用于生成给定问题时,每个段落与该问题的相关权重。Paragraph Reader则用于生成每个段落中能获得答案的概率。(PS:图中给出Paragraph Selector是做了粗筛,但实际好像并没有去掉段落,而是给出了权重)

2.2 Paragraph Selector

  1. 使用循环神经网络(RNN)对问题和段落进行了编码(论文这边还给出了MLP进行编码,后面实验证明MLP效果不行):
  1. 对问题𝑞做了self attention:
  1. 通过交互、池化和softmax求的概率:

2.3 Paragraph Reader

这一块可以和Paragraph Selector分开来看,视为两个独立的模型。

  1. 做和Paragraph Selector一样的编码,得到:
  1. 对每个段落的词对预测一个是答案开始的概率和是答案结束的概率:
  1. 统计2中的结果,对每个段落得到出其包含答案的概率(有MAX和SUM两种方法):
  • MAX
  • SUM

2.4 损失函数

论文中给出了一个\text{Pr}(a|q,P)的对数损失加上对段落选择器的正则部分:

L(\theta) = - \sum \text{Pr}(a|q,P)-\alpha R(P)

段落选择器的正则部分(即R(P)):

R(P)=\sum_{p_i \in P}\chi_i \log\frac{\chi_i}{\text{Pr}(p_i|q,P)}

其中\chi_i = \frac{1}{c_P}


三、实验结果

整体来看有不错的提高,但是论文看下来没感觉有哪些地方能特别帮助提高,后续会做下实验看看效果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容