引言
自动文摘技术结合了自然语言理解和自然语言生成技术,因此对文摘系统的评测也是对自然语言处理系统的评测。自动文摘技术用于自动从一篇或多篇文章中提取满足用户或应用需求的内容,加以组织后生成一篇内容完整、形式严谨的自动文摘。它可以帮助人们在海量信息中准确、高效地寻找自己需要的信息,发展至今,已经得到了广泛的应用。
自动文摘评测方法广义上分为两大类:内部评测(Intrinsic)与外部评测(Extrinsic)方法。内部评测是直接对摘要的质量进行评估进而评测一个独立文摘系统的性能;外部评测则是间接评估摘要质量,是将摘要应用到一个特定任务中,以评测文摘系统的性能。内部评测主要评估摘要内容本身,其标准有摘要包含的信息量完整性与语义上的连贯性等;外部评测主要评估摘要在完成与所指定主题信息的相关性,内容的可读性、可理解性,及评测该摘要对任务的有效性等。
内部评测
内部评测的摘要完整性评测一般有两种方法:手动评估和自动评估,手动是以原文为参考,原文经过加工、标注,为评价提供判定依据;自动是将专家根据原文生成的文摘作为标准文摘,来判断生成的自动文摘中所包含标准文摘中的信息程度。
自动评估的方法主要有两种:联合选择方法(co-selection)和基于内容的相似度方法(content-based similarity)。联合选择方法有精准精准度与召回率测量方法、RU(Relative Utility方法、Kappa方法等;基于内容相似度的方法有n-gram共现方法、基于最长公共子串的方法,基于Pyramid方法进行自动评测摘要的方法等。
内部评测标准:
- 信息量(informativeness):是否包含、包含多少原文的重点内容,可以用相似度评估。
- 连贯性(coherence):评估系统的摘要内容是否以有效的方式表达和组织。
- 可读性(readability):摘要能否让人读懂,与连贯性相近。
- 长度(length):决策长度对性能的影响。
- 冗余度(redundancy):摘要内容信息是否重复是否保证摘要的简介性,改进的方法有:MMR、CSIS等。
文摘评测发展过程:
外部评测
外部评测相对内部评测克服了主观性等缺点,外部评测又可称为基于特定任务的文摘评测方法:即为文摘系统提供一个应用环境,评测用系统摘要替代原文在完成特定任务时的性能,根据任务的反馈情况来改进摘要的生成以提高文摘系统的性能。外部评测的任务由很多种,例如:信息检索任务、分类任务、问答任务等。
相关性评估任务
相关性评估是用户根据文本摘要来判定该文本与指定主题或事件的相关程度。
Ad hoc检索任务:判定文本与主题的相关性。
分类任务:将杂乱的文本参照内容等特征归纳到事先分类好的各个主题类别中。
主要标准:相关性准确度和任务时间。
阅读理解性任务:要求系统能提供信息型摘要,用户能从中获取大量的信息,能通过摘要达到重现原文的目的。评价标准主要是对文本理解的正确性,比如问答系统中回答问题的准确度,重现原文信息的信息量。
自动文摘评价相关理论
向量空间模型和余弦相似度
相关分析理论
线性相关分析
等级相关分析
若两变量不服从正态分布或总体分布未知,则可采用等级相关分析。它适用于非正态总体或总体分布未知;数据一端或两端有不确定值的变量或等级变量。Spearman等级相关分析。
Kappa分析
相关分析在进行一致性检验时,有其局限性和不足。相关系数仅表示相关,并不表示真正一致;甚至在某些情况下应用不同的相关分析方法对同一批测定结果进行分析可能得出完全相反的结论。即它不能确切地综合反映评测结果之间的一致性。
Kappa统计量是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,以由于随机因素造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。
国外研究
基于准确率和回召率的方法
由人工生成一篇标准文摘,计算自动文摘中包含了标准文摘的多少句子,以此作为依据来评价自动文摘的质量。如果标准文摘的长度为n个句子,自动长度的文摘为k个句子,并且有p个标准文摘包含在自动文摘中,则准确率定义为:Precision=p/k;召回率定义为:Recall=p/n。
F-Measure是一个对文摘的准确率和召回率综合考察的指标,定义为:
p:准确率,R:召回率
文摘的准确率和召回率是两个相互关联的指标。通常,系统的文摘召回率不会随着准确率提高而提高,反而可能会下降。因此只用其中任何一个指标来评价都未必理想。
基于准确率和回召率方法只考察了句子是否相同,而忽视了句子内容本身的相似性。因此对于文摘局不同,而内容非常相似的两篇文摘会给出完全不同的评价结果。
基于内容相似度判别的方法
此前方法对文摘的评价都停留在句子的粒度上,并不能正确反映自动文摘包含原文章信息的程度。基于相似度的评价方法是对文摘内容完整性的一种评价,相比直接对文摘句进行打分的方法更准确。2002年,英国谢菲尔德大学Saggio等人提出了三种基于文摘内容相似度的自动评价方法,分别是基于余弦相似度(Cosine)、单元覆盖(Word Overlap)和最长公共子串(LCS)方法。
主流评价方法
SEE
美国南加州大学开发了一个单文档文摘评价系统SEE(Summary Evaluation Environment)。该系统首先根据评价的粒度将自动文摘和标准文摘打散成一系列单元(句子、分局等),通过计算机自动文摘单元对标准文摘单元的覆盖程度,来评价自动文摘的质量。
ROUGE
2004年,Chin-Yew Lin等人参考了机器翻译的自动评价方法BLEU,提出了ROUGE(Recall-Oriented Understudy for Gisting Evaluation)评价方法。该方法首先由多个专家分别生成人工文摘,构成标准答案,构成标准文摘集。然后将系统生成的自动文摘与人工生成的标准文摘对比,通过统计二者之间重叠的基本单元(n-gram、次序列、词对)的数目,来评价文摘的质量。
ROUGE主要包括一下四种评价标准:
- ROUGE-N 基于n-gram共现统计。
- ROUGE-L 基于最长公共子串。
- ROUGE-S 基于顺序词对统计。
- ROUGE-W 在ROUGE-L的基础 上,考虑串的连续匹配。
研究表明:
- ROUGE-2,ROUGE-L,ROUGE-W和ROUGE-S用于单文档文摘评价效果很好
- ROUGE-1,ROUGE-L,ROUGE-W,在评价短文摘时结果令人满意
- 通过使用标准文摘集而非单个标准文摘可以提高评价结果的一致性
Pyramid
首先将文摘句人工划分为若干个文摘内容单元(Summarization Content Unit,SCU),每个表示一个核心概念。一个SCU被越多的标准文摘包含就越重要。将所有的SCU按照重要程度排序,同等重要的SCU排列在同一行,由上向下重要程度逐行递减,构成所谓的“Pyramid”。
通过计算文摘包含的SCU的数量和重要程度来判断自动文摘的质量。初步研究表明,Pyramid与人工评价有较好的一致性但是,由于各个语义单元的大小不固定,且同一语义的表述方式多种多样,致使自动生成这些语义单元存在很大困难。而且人工标注成本高,不利于大规模地对多个系统进行评价。。
BE
为了解决Pyramid方法的问题,Chin-Yew Lin等人又在2005年提出了BE(Basic Elements)方法。首先由机器自动生成标准文摘的较小的n元语法单元,然后对它们进行合并,实现自底向上的构造语义单元。这样便可以实现单元的自动识别,而且在一定程度上降低了匹配表示相同概念的不同语义单元的难度,这些基本单元被称为BE。
具体方法是构造一个句法分析器,然后生成一棵分析树,并定义一系列剪枝规则从分析树中抽取有效的BE。但是目前BE的定义、打分策略以及匹配方法等问题还没有得到很好的解决,有待通过研究得以解决。