摘要
针对大型英语文本简化过程中的删减现象,本文提出了一种数据驱动的研究,着重分析和预测句子的删减现象。作者收集了一个新的人工标注的句子对齐语料库,探究了简化过程中句子删除过程中相关的文档和论述因素。发现专业的编辑会通过不同的策略来满足使得中小学生可读的标准,为了预测句子在简化到某个程度的过程中中是否会被删除,我们利用自动对齐的数据来训练分类模型。根据我们手工标注的数据进行评估,最好的模型在这项任务中,在小学和中学的一级得分分别为65.2和59.7。我们发现,discourse level(话语水平)的因素有助于预测句子在简化过程中是否被删除。
出发点
文章简化的目的是为了让文章有更多的受众,简化过程涉及到多种操作,包括词法和句法转换、总结、删除困难内容和解释(Siddharthan 2014)。大部分句子简化工作是在句子层次上的,很少涉及到文档层次(上下文),本文的工作主旨在于促进更好地理解文档级简化中的句子删除。因为句子的删除除了句子中的内容外,还部分地由上下文,话语级信息驱动。
数据集
使用了包含936篇新闻文章的Newsela文本简化语料库每一篇文章集由原文章的4 - 5个简化版本组成,范围从3-12年级(对应8-18岁)。我们将文章分为三个阅读水平:原始读物(12年级)、中学(6-8年级)和小学(3-5年级)。使用来自每个阅读级别的文章的一个版本,并研究两种文档级别的转换:原始->中学和原始->小学。
探究这些文章被专业的编辑简化时句子是否丢弃,为了评估与分析数据,我们手动对齐了50个文章中的句子,结果数据集是用于简化句子对齐的最大手动注释数据集之一,原始文章中不能与较低阅读水平的任何句子相匹配的句子被认为已删除。为了训练用于句子删除预测的模型,我们依靠来自语料库其余部分的自动对齐句子的嘈杂监督。
如果原始文章中的句子没有对应的编辑简化后的句子,就视为被删除。
话语等级要素
文章特征包括以下两方面:文章长度、主题。
文章越长,删除率越高。
删除率跟文章主题有很大关系。
修辞结构
用一个深度话语树来表示各个句子之间的结构。
并得出以下结论,越靠近树根的句子越不容易被删除,相反,被删除的句子通常在树比较低的位置。
核性
文章越简单,核心句的附属句就越容易被删除,但是该情况不显著。
话语相关性
句子之间的关系
与其他句子毫无关联的句子被删除的概率小,而细化说明或解释其他句子的句子在小学和中学水平被删除概率有明显提升。
话语链接句
较高水平的文章,话语链接句更多。被删除的句子更有可能有一个或多个连接词,因为有链接词是句子复杂的潜在标志。
实验
我们在两个任务上运行我们的实验,首先是建立一个分类模型,看看它是否可以预测在简化到中学和小悦级别时是否应该删除一个句子其次,我们进行特征消融,以确定在实践中文档和话语信号是否在噪声监督下有所帮助。
对于原文中的一个句子,我们(i)预测它是否会在简化到初中水平时被删除,从自动对齐训练到噪声监督;(ii)初级阶段的预测也相同。我们使用15篇手动对齐的文章作为验证集,其他35篇文章作为测试集。
实验方法:我们使用逻辑回归(LR)和前馈神经网络(FNN)作为分类器,并尝试从多个可能互补的方面进行特征测试。为了捕获句子级语义,我们考虑GloVe词嵌入的平均值。稀疏特征(SF)包括句子在整篇文章以及其所在段落中的相对位置。此外,我们还包括以下句子的可读性评分。利用我们的语料库分析(第3节),我们结合了文档级别的功能,包括文档中句子的总数和单词数以及文档的主题。我们的话语功能包括当前句子的深度,核的指示符特征以及文档的支配关系RST树中的当前句子,是否存在我们分析的四个关系之一的显式连接词以及该连接词的位置。我们还使用句子的位置,因为文章后面出现的句子更有可能被删除。为了提高预测性能,我们采用了一种平滑分类方法,并通过应用k个高斯径向基函数将每个稀疏特征(二进制或数字的稀疏特征)投影到k维矢量表示中。
结论: 中学级比小学级更为难预测,FFNN+Gaussian的模型结果最好