关注和概要用神经注意的共同学习
摘要
询问相关排序和句子显著排序是两个主要的任务在提取询问专注概要。 之前的监督概要系统经常呈现隔离的两个任务。然而,由于相关概要是在相关性和显著性之间交易,使用它们作为监督,两个排序都不能训练的很好。这个论文提出一个新奇概要系统AttSum,共同的处理两个任务。它自动学习分布表示句子同样文档簇。同时,它采用注意机制刺激人类行为的专心阅读当一个询问被给出。扩展实验执行在DUC query-focused概要基准数据集。不适用任何人工特征,AttSum完成有竞争力的表现,我们还观察句子辨识去着重在询问上,着实满足询问的需求。
1 介绍
query-focused 概要致力于创造一个简短,组织好的流利的概要满足询问的需求。在很多情况下很有用比如新闻服务和搜索引擎等等。今天,大多概要系统基于提取框架从而直接选择现存句子形成概要。基本的,这里有两个主要的任务在提取关注问题的概要也就是去测量句子的显著性和一个用户问题的相关性。
长期的研究,基于学习的模型比如Logistics Regression等等渐渐在这个领域流行。然而,大多目前监督概要系统经常分别执行这两个任务。通常,他们设计基于询问的特征(询问词重叠)去学习相关性排序,和依赖询问的特征(术语频率)去学习显著性排序。因此,这两种特征组合在一起去训练一个总的排序模型。注意到仅仅可监督是相关概要。人工书写的概要使用相关性和显著性。一些显著的内容可能不显示在reference概要如果它不能回应这个询问。同样的,对于询问有相关性的内容但不是文档的典型也会被排除。结果是,在一个隔离的模型,既不是依赖询问也不是依赖询问特征的权重可以从reference概要学习很好。
更多的,当测量询问相关性,大多概要系统仅仅使用表面特则比如TF-IDF分数。而且询问的主要意图是寻找benefit,是一个非常广泛的词,而且一点也不呈现在原始文本中。不出意外当使用TF-IDF余弦相似性做测量,拥有最高分数的句子都包含词drug或者legalization。不管怎么样,任何一个都不提供drug legalization优势。看section4.6参考。显然的,尽管一个句子和询问是一样的,它始终在概要中没有用因为它不能满足询问需求。因此,表面特征不足以测量询问相关性,进一步增加了全部概要系统的错误。这个缺点特别的解释了为什么它采用普通概要模型可能完成可接受的表现在注重询问的概要任务中。
直觉的,隔离问题可以由joint模型解决。同时,神经网络展现出可以产生更好的描述比表面特征在概要任务中。因此,一个joint神经网络模型应该是一个好的解决方案去提取注重询问的概要。到这里,我们提议一个新的概要系统叫做AttSum,联合询问相关排序和句子显著排序及一个神经attention模型。这个attention机制已经成功的应用于学习各种各样的方式之间的联盟。更多的,展示的工作还算好的去使用句子embedding和文档embedding之间的相似性用于显著测量,文档embedding源于句子embedding的池化加总。为了考虑相关性和显著性同时的,我们介绍权重加总池化用于句子embedding去表示文档,权重自动的学习于句子的询问相关性。这样,文档表示会有bias对于句子embedding,相配于询问和文档的意思。这个AttSum的工作机制是与人类阅读的方式始终如一当有一个特别的询问在他们的脑海中。自然地,它们付出更多的注意力于满足询问需求的句子。被指出,不像之前大多概要系统,我们的模型全部数据驱使,所有的特征是自动学习的。
我们验证AttSum在广泛使用的DUC2005~2007 query-focused 概要基准数据集。AttSum表现高于广泛使用的概要系统依赖于丰富手工特征。我们还执行了质量分析对于那些对于query有大相关性分数的句子。结果展示了AttSum确实注重很高query相关的内容。
我们工作的contribution如下:
- 我们采用注意机制试图模拟人类试图阅读行为为了query-focused概要;
- 我们提出一个joint神经网络模型去学习询问相关排序和句子显著排序同时的。
2 Query-Focused 句子排序
对于一般概要,人们阅读文本几乎赋予相同的注意力。然而,给出一个query,人们会自然地付出更多注意力给query相关的句子和从中总结主要ideas。同人类专心阅读行为相似,AttSum,这个系统描述在这个section,排序与query着重相关的句子。总的框架显示在Fig. 1。从上到下,AttSum包括三个主要层。
CNN Layer 使用卷积神经网络去投射句子和询问到embedding。
池化 Layer 注意机制结合句子embedding形成文档embedding在同一个潜在的空间。
排序 Layer 排序一个句子依据相似性在它的embedding和文档簇的embedding之间。
其余部分描述这三个层的细节。
2.1 CNN层
卷积神经网络已经被广泛的用于各种NLP领域包括概要。他们可以学习压缩的n-grams的表示有效的,解决句子的变量长度的问题自然地。我们使用CNN投射句子和询问到分布表示:
一个基本CNN包括一个卷积运算在词embedding的最上面,接下来是池化运算。v(w_i) \in R^k
值得是k维度的词embedding对应于第i个句子中的词。认为v(w_i:w_{i+j})
是词embedding [v(w_i),···,v(w_{i+j})]
的拼接。一个卷积运算包括一个过滤器W^h_t \in R^{l×hk}
,用于h个词的窗口产生抽象特征c^h_i \in R^l
:
其中f(·)
是一个非线性函数而且使用tanh
是通常的选择。为了简化,bias被省略。这个过滤器应用于句子中每个可能的词窗口产生特征映射。随后,一个池化操作应用于特征映射去获得过滤器的最终特征\hat c^h \in R^l
。这里我们使用基于时间最大池化。
这个想法的背后是捕捉最重要的特征在特征映射中。\hat c^h
是CNN层的输出,也就是句子和询问的embedding。
2.2 池化层
伴着attention机制,AttSum使用权重加总池化于句子embedding去表示文档簇。为了完成这个目标,AttSum首先自动学习一个句子的询问相关性:
其中Mv(q)^T
是一个tensor函数,而且\delta
表示sigmoid函数。这个tensor函数拥有测量任何两个句子和询问的embedding元素之间交互作用的力量。因此, 两个相同的embedding将会拥有低的分数。这个特征就是我们需要的。重申,相关性和相似性不相等。r(s,q)
作为权重,我们介绍加总权重的池化去计算文档embeddingv(d|q)
。
值得注意,一个句子embedding扮演两个角色,池化item和池化weight。一方面,如果一个句子高度相关区询问,它的池化权重很大。另一方面,如果一个句子在文档簇中是显著的,它的embedding应该描述出来。作为一个结果,权重加总池化产生文档描述,自动偏执于句子的embedding匹配文档和询问。
AttSum模拟人类attentive阅读行为,其中的attention机制拥有真实的意思。这个实验呈现在section4.6将会展示它捕获询问相关句子的强能力。事实上,这个attention机制已经被应用于单个句子概要产生在【】之前。这些工作的成功,然而,十分依赖手工特征。我们相信attention机制如果合适的使用可能可以扮演期望的角色。
2.3 Ranking层
自从语义学直接的存在在句子中和文档embedding,我们排序一个句子依据它的embedding和文档簇的相似性,跟随【】的工作。这里我们采用cosine相似性:
对比Euclidean距离,cosine相似性的一个优势是自动规模化。依据【】cosine相似性是最好的矩阵去测量embedding相似性用于概要。
在训练过程中,我们采用成对排序策略去调试模型参数。特别的,我们在训练数据中计算所有句子的ROUGE-2分数。这些具有高ROUGE-2分数的句子被认为正向样例,其余则为负向例子。之后,我们随机选择一对正向和负向句子分别的表示为n^+
和n^-
。通过CNN层和池化层我们产生embeddingv(s^+)
,v(s^-)
和v(d|q)
。我们从而可以依据公式5获得s^+
和s^-
的分数排序。根据这一对排序标准,AttSum应该对一个正向样例给出一个更高的分数相比于负向样例。cost函数如下定义:
其中Ω
是margin下限。有这个cost函数,我们使用梯度递减算法更新模型参数。在这个论文中,我们采用AdaGrad的对角线变量以及mini-batches。AdaGrad采用学习率用于不同的参数在不同的步骤。因此它对初始参数相比于随机梯度递减不敏感。
3 句子选择
一个概要要求提供信息和不冗余的内容。当AttSum重点在句子排序,它应用一个简单贪婪算法,相似于MMR策略,选择概要句子。首先,我们丢弃少于8个词的句子就如【】的工作。接着我们依据获得的排序分数降序排列剩下的句子。最后,我们反复的出列排序最高的句子,拼接到现在的概要,如果它不是冗余的。如果它显著的包含新的bi-grams对比于现在的概要内容,则认为一个句子不冗余。我们以经验为主设置新bi-gram的cut-off率为0.5。
4 实验
4.1 数据集
在这个工作中,我们重点关注query-focused多文档概要任务。这个实验执行在DUC2005~2007数据集上。所有文档来自新闻网站并分类到不同主题簇中。在每个簇,有四个参照概要由NIST评估员建立。我们使用斯坦福CoreNLP处理数据集,包括句子拆分和标记化。我们的概要模型把一个簇中的所有文档编制到单个文档中。Table 1显示了三个数据集的基础信息。我们可以发现DUC的数据大小十分不同。DUC2007的句子数量仅仅是DUC2005的一半。对于每个簇,一个概要系统被要求去产生一个概要并且有250个词的长度限制。我们在DUC数据集上执行一个3-fold交叉验证,两年的数据作为训练集,一年的数据作为测试集。
4.2 模型设置
对于CNN层,我们介绍一个词embedding装置,在大量英语新闻语料上使用word2vec模型训练。词embedding的维度设置为50,就如之前的工作。由于概要数据集有限制,在训练过程中我们不更新这些词embedding,很大的减少了模型参数被学习。这里有两个超参数在模型中,也就是词窗口大小h
和CNN层维度l
,我们探索模型参数的变化在l \in [5,100]
。最终,我们选择l=50
对于所有其余的实验。和词的embedding的维度相同。在对成对的排序的训练中,我们设置marginΩ=0.5
。这个最初学习率是0.1以及batch大小是100。
4.3 评估度量
对于评估,我们采用广泛使用的自动评估度量ROUGE。它测量这个概要质量通过计数重叠的单元例如n-grams,词序列和在peer概要之间的词对和参考概要。我们使用ROUGE-2作为主要测量由于它的高自动评估概要系统的能力。在训练数据成对排序期间,我们还排序句子依据ROUGE-2分数。
4.4 基准
为了评估这个AttSum概要的表现,我们执行了丰富的抽取概要方法。在上文,我们介绍两个常用基准方法。第一个仅仅选择leading句子形成概要。它通常是DUC用的官方基准方法,我们取名LEAD。另一个系统叫做QUERY_SIM,直接排序句子依据它的TF-IDFcosine相似性对于query。除外,我们执行两个流行的抽取query-focused概要方法,叫做MultiMR和SVR。MultiMR是一个基于图表的多方面排序方法,统一使用句子对句子关系和句子对询问关系。SVR抽取依赖询问和询问独立的特征,采用支持向量回归学习特征权重。注意到MultiMR是非监督而SVR是监督学习。由于我们的模型是数据驱使的,我们介绍一个最近概要系统DocEmb,也是仅仅使用深度神经网络特征去排序句子。它最初用于一般概要,而后我们增加询问信息去计算文档表示。
去验证联合模型的效率,我们设计一个基准方法叫做ISOLATION,在isolation中执行saliency排序和relevance排序。特别的,它直接使用加总池化对于句子embedding去表示文档簇。因此,一个句子和文档簇的embedding相似性可以仅仅测量这个句子的显著性。为了包括询问信息,我们对于询问执行常用的手工特征TF-IDFcosine相似性。这个依赖询问的特征,和embedding相似性一起,被用在句子排序。ISOLATION去除了attention机制,融合了手工和自动学习特征。所有这些方法采用展示在section3的同样的句子选择过程,用于一对的对比。
4.5 概要表现
不同概要方法的ROUGE分数呈现在Table 2。我们考虑ROUGE-2作为主要评估度量,而且还提供ROUGE-1结果作为一般的实验。正如所见的,AttSum总是有一个合理的增长对于ISOLATION,表明联合模型确实有效。对于其他方法,AttSum的表现极大的超出其他两个基准方法(LEAD和QUERY_SIM)和非监督神经网络模型DocEmb。尽管AttSum完全是数据驱使的,它的表现好于广泛使用的概要系统MultiMR和SVR。值得注意SVR严重依赖手工特征。不管怎样,AttSum几乎胜过SVR在所有时间。唯一的例外是DUC2005其中AttSum微微劣于SVR依据ROUGE-2。过拟合是可能的一个原因。Table 1表明DUC2005的数据大小极大的高于其他两个。作为结果,当使用3-fold交叉验证,对于DUC2005的训练数据的number是这三年中最小的。训练数据的缺乏阻碍句子和文档embedding的学习。
十分有趣的是ISOLATION完成有竞争的表现但是DocEmb表现极差。预训练的词embedding似乎不能直接测量句子的显著性。对比中,我们的模型可以很好学习句子显著性。
4.6 询问关联表现
我们检查了SVR的特征权重并发现依赖询问的特征具有极其小的权重。没有这些特征,SVR的表现仅仅降低1%。因此,SVR不能很好的学习询问关联性。AttSum和ISOLATION的对比显示我们的模型可以更好的学习询问关联性相比于手工特征。在这个section,我们执行质量分析去检查依据学习的询问关联性AttSum真实捕获的是什么。我们随机选择一些query在测试集并且计算句子的关联分数依据公式3。我们从而抽取在排序最上面的并检查他们是否可以满足query的需求。一个句子的query和多句子的query的例子都显示在Table 3。我们还给出对于query的TF-IDF cosine相似性的最高的句子用于对比。
伴随人工检查,我们发现最query-focused句子在AttSum中可以在很大范围上回答query。例如,当问到说出drug合法化的优点,AttSum捕获关于防止drug非法交易、控制使用大麻和经济有效性等的句子。所有的方面在reference概要中被提到。这些句子伴随着高TF-IDF相似性,然而,经常短短并简单的重复query中的关键词。AttSum超过TF-IDF相似性的优势显然在query关联性排序。
当query中有多个句子,AttSum可能仅仅关注它们中的一部分。取Table 3中第二个query做例子。尽管对所有四个query句子的回应都或多或少的包括,我们可以看到AttSum倾向于更多的描述湿地保护步骤。事实上,通过检查,reference概要对待query句子也不是平等的。对于这个query,它们仅仅在wetland preservation期间显示关于挫折的一些。由于AttSum投射一个query到embedding,它可能增大reference概要的bias。甚至对于人能聚精会神的阅读都看起来很难,当在query中有大量需求。因为仅仅DUC数据集很少的一部分包括这类复杂query,我们不提议设计一个专门的模型去解决他们在我们现在的工作中。
5 相关工作
5.1 抽取概要
抽取概要的工作跨越了大范围的方法。开始于非监督方法,一个广为人知的方法是最大化边缘相关性MMR。它使用一个贪婪方法去选择句子和考虑显著性和冗余性之间的权衡。好的结果可以通过重现这个问题为一个整数线性规划ILP问题获得,可以发现最优解。基于图表的模型扮演一个领导角色在抽取概要领域,由于它反应各种句子关系的能力。例如,【】采用多排序使用文档内句子关系,交叉文档句子关系和句子对query关系。对比于这些非监督方法,这里有各种基于学习的概要系统。不同的分类器已经探索了,也就是条件随机场CRF、支持向量回归SVR、逻辑回归。
许多query-focused概要是一般概要方法的启发式扩展,通过混合给出的query的信息。一邪猎依赖query的特征被定义去测量相关性,包括TF-IDF cosine相似性,和共同出现的词。然而,这些特征经常回馈相似于query的句子,无法满足query的需求。
5.2 概要中的深度学习
在概要范围,深度学习技术的应用吸引越来越多的兴趣。【】使用了非监督自编码去描述人工和系统概要用于概要评估任务。他们的方法,然而,没有超越ROUGE。最近,一些工作已经尝试使用神经网络去完成句子排序特征。尽管这些模型达到了体现最高水平的表现,他们依然严重的依赖手工特征。一些研究探索了直接的测量相似性基于distributed representation。【】训练一个语言模型基于卷积神经网络投射句子到distributed representation。【】对待单个文档概要为一序列标记任务,通过RNN建模。其他像【】仅仅使用训练词的embedding的加总表示句子和文档。
除了抽取概要,深度学习技术还应用压缩和抽象概要。【】使用词embedding和LSTM模型输出可读和有信息的句子压缩。【】杠杆了神经attention模型在机器翻译领域去产生单个句子概要。我们已经描述了这些方法在section2.2。
6 总结和将来的工作
这篇paper提出一个新奇的query-focused概要系统叫做AttSum,共同的解决显著性排序和相关性排序。它自动的对句子以及文档簇产生distributed representation。同时,它采用attention机制试图刺激人类集中注意阅读行为当一个query给出。我们执行扩展实验在DUC query-focused概要数据集。使用无手工的特征,AttSum完成有竞争性的表现。它还观察到句子辨识query的重点确实满足query的需求。
自从我们获得文档簇的语义表示,我们相信我们的系统可以简单的扩展到抽象概要。位移的附加步骤是在文档embedding之后一体化一个神经语言模型。我们把它留到以后的工作。