自然语言处理(NLP)论文总结(1)Discourse Level Factors for Sentence Deletion in Text Simplification

摘要

针对大型英语文本简化过程中的删减现象,本文提出了一种数据驱动的研究,着重分析和预测句子的删减现象。作者收集了一个新的人工标注的句子对齐语料库,探究了简化过程中句子删除过程中相关的文档和论述因素。发现专业的编辑会通过不同的策略来满足使得中小学生可读的标准,为了预测句子在简化到某个程度的过程中中是否会被删除,我们利用自动对齐的数据来训练分类模型。根据我们手工标注的数据进行评估,最好的模型在这项任务中,在小学和中学的一级得分分别为65.2和59.7。我们发现,discourse level(话语水平)的因素有助于预测句子在简化过程中是否被删除。

出发点

文章简化的目的是为了让文章有更多的受众,简化过程涉及到多种操作,包括词法和句法转换、总结、删除困难内容和解释(Siddharthan 2014)。大部分句子简化工作是在句子层次上的,很少涉及到文档层次(上下文),本文的工作主旨在于促进更好地理解文档级简化中的句子删除。因为句子的删除除了句子中的内容外,还部分地由上下文,话语级信息驱动。

数据集

使用了包含936篇新闻文章的Newsela文本简化语料库每一篇文章集由原文章的4 - 5个简化版本组成,范围从3-12年级(对应8-18岁)。我们将文章分为三个阅读水平:原始读物(12年级)、中学(6-8年级)和小学(3-5年级)。使用来自每个阅读级别的文章的一个版本,并研究两种文档级别的转换:原始->中学和原始->小学。


探究这些文章被专业的编辑简化时句子是否丢弃,为了评估与分析数据,我们手动对齐了50个文章中的句子,结果数据集是用于简化句子对齐的最大手动注释数据集之一,原始文章中不能与较低阅读水平的任何句子相匹配的句子被认为已删除。为了训练用于句子删除预测的模型,我们依靠来自语料库其余部分的自动对齐句子的嘈杂监督。

如果原始文章中的句子没有对应的编辑简化后的句子,就视为被删除。

话语等级要素

文章特征包括以下两方面:文章长度、主题。

文章越长,删除率越高。

删除率跟文章主题有很大关系。


修辞结构

用一个深度话语树来表示各个句子之间的结构。



并得出以下结论,越靠近树根的句子越不容易被删除,相反,被删除的句子通常在树比较低的位置。

核性

文章越简单,核心句的附属句就越容易被删除,但是该情况不显著。

话语相关性

句子之间的关系


与其他句子毫无关联的句子被删除的概率小,而细化说明或解释其他句子的句子在小学和中学水平被删除概率有明显提升。

话语链接句

较高水平的文章,话语链接句更多。被删除的句子更有可能有一个或多个连接词,因为有链接词是句子复杂的潜在标志。

实验

我们在两个任务上运行我们的实验,首先是建立一个分类模型,看看它是否可以预测在简化到中学和小悦级别时是否应该删除一个句子其次,我们进行特征消融,以确定在实践中文档和话语信号是否在噪声监督下有所帮助。

对于原文中的一个句子,我们(i)预测它是否会在简化到初中水平时被删除,从自动对齐训练到噪声监督;(ii)初级阶段的预测也相同。我们使用15篇手动对齐的文章作为验证集,其他35篇文章作为测试集。

实验方法:我们使用逻辑回归(LR)和前馈神经网络(FNN)作为分类器,并尝试从多个可能互补的方面进行特征测试。为了捕获句子级语义,我们考虑GloVe词嵌入的平均值。稀疏特征(SF)包括句子在整篇文章以及其所在段落中的相对位置。此外,我们还包括以下句子的可读性评分。利用我们的语料库分析(第3节),我们结合了文档级别的功能,包括文档中句子的总数和单词数以及文档的主题。我们的话语功能包括当前句子的深度,核的指示符特征以及文档的支配关系RST树中的当前句子,是否存在我们分析的四个关系之一的显式连接词以及该连接词的位置。我们还使用句子的位置,因为文章后面出现的句子更有可能被删除。为了提高预测性能,我们采用了一种平滑分类方法,并通过应用k个高斯径向基函数将每个稀疏特征(二进制或数字的稀疏特征)投影到k维矢量表示中。

结论: 中学级比小学级更为难预测,FFNN+Gaussian的模型结果最好

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356