事件抽取

事件抽取

01 问题定义

我理解,事件(Event)是一个概念,指的是若干与特定矛盾相关的事物,在某一时空内的运动。

事件抽取,是这样一种任务,它要求我们用人工或者自动的方法,从半结构化、非结构化数据中,识别一个与我们的目标相关的事件的重要元素识别出来。

事件抽取任务的直接目标,就是识别特定类型的事件,并把事件中担任既定角色的要素找出来——一般来说,我们会按照任务的需求,制定一个事件类型体系,并根据研究对象的特点,规定各类事件里重要的角色。任务类型体系和各类型事件的角色清单,就是我们预测目标。

事件抽取(Event Extraction)是一种面向非结构化文本或半结构化数据的信息抽取(Information Extraction)任务,与传统面向知识图谱的实体、关系、属性等信息­­­­抽取有所不同的是,事件抽取抽取的是“事件”,即某些事物在时空范围内的运动。

事件抽取是指从自然语言文本中抽取指定类型的事件以及相关实体信息,并形成结构化数据输出的文本处理技术。

事件抽取及其应用综述

AN OVERVIEW OF EVENT EXTRACTION AND ITS APPLICATIONS

0. 摘要

随着信息技术的快速发展,网络平台产生了大量的文本资源。事件抽取(Event Extraction, EE)作为信息抽取(Information Extraction, IE)的一种特殊形式,由于其能够从人类语言中自动抽取事件而受到越来越多的关注。然而,关于事件抽取的文献调查非常有限。现有的评审工作要么花费大量精力描述各种方法的细节,要么专注于一个特定的领域。本文综述了国内外最先进的文本事件提取方法及其应用,包括闭域事件提取和开放域事件提取。这个调查的一个特点是,它提供了适度复杂性的概述,避免涉及特定方法的太多细节。本研究侧重于探讨代表性作品的共性、应用领域、优缺点,忽略了个别研究方法的特殊性。最后,我们总结了常见问题、当前解决方案和未来的研究方向。我们希望这项工作可以帮助研究人员和从业者获得一个快速的概述最近的事件提取。

1. 介绍

随着信息技术的飞速发展,互联网产生的电子文本数据提供了一种承载无限信息潜力的资源。多年来,信息提取(Information Extraction, IE)越来越受欢迎,因为它通过自动从人类语言[1]中提取内容来帮助开发这种潜力。事件提取(EE)起源于20世纪80年代末,当时美国国防高级研究计划局(DARPA)推动了对[2]信息理解的研究。现在,事件提取已经成为一项重要且具有挑战性的任务,其目的是发现具有特定类型及其参数[3]的事件触发器。

事件抽取在各个领域的许多应用中扮演着重要的角色。在安全领域,Tanev et al.[4]对全球危机进行实时新闻事件提取。在智能交通领域,Sakaki et al.[5]开发了一个利用社交媒体提取实时驾驶信息的系统,为驾驶员提供交通拥堵、天气预报等重要事件。Sheng等人[6]研究了金融领域的重叠事件提取问题,Zheng等人[7]提出了一种新颖的从中国金融公告中端到端文档级事件提取框架。在社交媒体领域,Ritter et al. [8], Zhou et al. [9], Kunneman and V an Den Bosch [10], Peng et al.[11]开发了新的开放域事件提取模型,从Twitter中提取事件。在生物医学领域,有很多研究从arXiv:2111.03212v1 [cs]中提取药物和相关不良事件(ADEs)。预印本:事件提取及其应用概述- 2021年11月8日临床文件[12,13,14]。在法律领域,从法院判决中提取事件可以通过代表主要的法律事件,以及相关的时间信息[15],提供整个案件发生的可视化概述。许多研究都致力于提出新的方法来解决一般事件提取的挑战[16,17,6,18,19]。

根据不同的分类方法,可以将已有的事件抽取文献分为不同的类别。我们总结了典型的研究工作,并在图1中进行了分类。事件抽取包括闭域事件抽取和开放域事件抽取,是两大主流部分。前者旨在发现具有特定类型及其参数的事件触发器,而后者则专注于检测新的事件或跟踪已知事件的状态变化。本研究主要从技术角度对文献进行总结,并辅以其他分类方法。

[图片上传失败...(image-dc1b59-1656589439145)]

闭域事件提取: 从使用的技术来看,现有的方法可以分为四类:模式匹配、机器学习、深度学习和半监督学习方法。值得注意的是,半监督学习方法被单独视为一个类别,因为最近有很多研究使用半监督或远程学习方法来增强语料库,成为一个研究热点。

从如何训练模型的角度来看,现有的方法可以分为模式匹配、流水线训练和联合训练方法。选择哪种方式主要取决于研究者如何处理事件抽取的子任务。

从是否需要大量专家知识的角度来看,现有的方法可以分为知识驱动、数据驱动和混合方法[20]。知识驱动的方法通常需要专业知识来设计精细的模式。数据驱动的方法主要是通过统计或深度学习的方法从大数据中挖掘知识。混合方法结合了上述方法。

现有研究从事件抽取任务的语料库层面可分为句子层面、文档层面和跨文档层面

开放域事件提取:开放域事件提取与封闭域事件提取有很大的不同,因为它侧重于从文本中检测新的或意外的事件。因此没有预定义的事件类型,事件模式归纳是开放域事件提取的关键子任务。从使用的技术来看,现有的方法可以分为基于贝叶斯的[21]、基于聚类的[11]、基于解析的[8]、基于词典的[22]、半监督的[19]和基于远程监督的[15]、基于对抗域适应的[23]。从任务目标的角度来看,现有的研究可分为新事件检测、事件生成和事件跟踪。

尽管事件抽取的重要性和普及程度很高,但对近年来事件抽取研究的综合评述和总结却非常有限[20,24,25]。大部分的调查研究主要集中在一些具体的领域,如基于深度学习模式的事件提取[26]、多语言事件提取[27]、社交网络事件提取[28]、生物分子事件提取[29,30]、决策支持系统事件提取[2]等。另一个局限性是,现有的大多数研究,包括全面的综述,缺乏对近期开放域事件提取研究的总结。从这个观点出发,我们回顾并提供了最近事件抽取文献的概述。与以往的调查研究不同,本研究的主要贡献如下:

(1)从技术角度系统回顾了闭域和开放域事件提取的相关文献。在每一部分中,我们回顾了代表性研究的模型、技术、事件级别、数据集和应用领域,并按年将其总结在相应的表格中。

(2)这一调查的一个特点是,我们试图提供一个中等复杂性的概述。我们忽略个别研究的特殊性,避免讨论个别研究的细节。重点讨论了代表作品的共性、应用领域、优缺点。我们希望这项工作可以帮助研究者和实践者快速获得最近事件提取的轮廓。

(3)我们总结了阻碍事件提取泛化和工业应用的常见问题和挑战。目前相应的解决方案和研究方向也在下文中给出。

本文的其余部分组织如下。首先介绍了事件抽取任务的定义、常用语料库和评价指标。然后从技术角度对文献进行回顾和总结,第3节为闭域事件提取,第4节为开域事件提取。第五部分总结并讨论了当前常见的研究问题和未来的研究方向。结论在第6节。

2. 事件抽取

2.1 事件提取任务定义

事件抽取作为一种特殊的信息形式,涉及到命名实体识别(NER)和关系抽取(RE),并且主要依赖于这些任务的结果。事件抽取作为一门交叉学科,与计算机科学、统计学和自然语言处理密切相关。我们在图2中演示了从基本原理到应用程序的关系。

图2:事件抽取与其他跨学科学科和技术之间的关系的演示。

[图片上传失败...(image-f4a6aa-1656589439145)]

按照ACE 2005中的事件提取任务定义,事件通常被描述为状态的变化,表示在特定时间和特定地点发生的特定事件,涉及一个或多个参与者。它可以帮助回答“5W1H”问题,即关于一个事件的“谁”、“何时”、“哪里”、“什么”、“为什么”和“如何”。ACE使用以下术语来描述事件提取任务:

事件提及:事件提及通常是描述一个事件的短语或句子,其中包含一个触发器和相应的参数。

事件触发器:它通常是一个动词或名词,最清楚地表达事件的核心意义。

事件类型:指事件对应的类别。在大多数情况下,事件类型是手动预定义的,按事件触发器分类。例如,在ACE 2005事件语料库中预定义了8种事件类型和33种子类型。而在开放域事件提取中,它不是明确预定义的,但通常可以由事件触发器表示。

事件参数:事件参数是事件的主要属性。它们通常是描述事件状态变化的实体,涉及到谁、什么、何时、何地和如何改变。

参数角色:参数角色是事件参数在事件参数和触发器之间的关系中执行的函数或位置。

例如,S1句中涉及两种事件类型:“死亡”和“攻击”,分别由“死亡”和“开火”触发。在Die事件中,“Baghdad”、“cameraman”和“American tank”是其对应角色的论据,分别是Place、Victim和Instrument。在Attach事件中,“Baghdad”、“cameraman”、“American tank”和“Palestine Hotel”分别是其对应的论点:Place、Victim、Instrument和Target。这是一个共享三个参数的更复杂的示例,比在一个句子中使用一个事件类型的简单示例更具挑战性。图3显示了事件提取注释和语法解析器结果。

[图片上传失败...(image-77c340-1656589439145)]

闭域事件提取任务可以分为四个子任务:触发器识别、事件类型分类、参数识别和参数角色分类。从事件抽取子任务的组织方式来看,现有的闭域事件抽取方法大多可分为两类主流方法:基于流水线的方法和基于联合的方法。基于管道的方法利用了分治算法的思想;因此,它的优点是简化了每个子任务,可以为后续的子任务提供信息。相反,它的缺点是传播级联错误,而且总体性能很大程度上依赖于前面的子任务。基于联合的方法独立考虑子任务,不会在子任务之间传播错误。缺点是不能利用之前子任务的信息,需要更大规模的精细标记数据来训练模型。

2.2 事件抽取语料库

事件抽取语料库由具有领域知识的专业人员或专家进行标注,用于训练或评估模型。本节主要介绍一些有代表性的事件抽取语料库,这些语料库是由公共评价程序提供的,或者是在以前的文献中提到的。我们在表1中总结了这些流行的语料库。

  • ACE 2005事件语料库包含8个事件类型和33个子类型,599个文档(633个中文文档)中有6000个标记示例。ACE 2005语料库中的事件根据其属性和参与者来表示。参与者是参与活动的ACE实体。ACE事件本质上是ACE关系的推广[1]。

  • TimeBANK语料库[31]中的文本涵盖了新闻领域的各种媒体来源。它是一种黄金标准的人工注释语料库,遵循TimeML(时间标记语言)注释方案,用于标记时间表达式、事件以及事件和事件时间之间的时间关系。TimeBank 1.2[32]包含183篇文章,包含27592个TimeML标签,其中7935个是事件标签。

  • Factbank语料库[33]是在TimeBank 1.2和AQUAINT TimeML语料库的一部分基础上构建的。不同的是,Factbank语料库中补充了有关事件真实性的额外信息。它包含208个文档,总共包含9488个手动注释事件

  • TDT语料库1[35,36]用于主题检测和跟踪研究程序,包括TDT Pilot、TDT2和TDT3语料库。TDT试点语料库包含大约16000个故事和25个事件。TDT2语料库包含超过74000个故事,超过100个主题。TDT3语料库2.0包含超过31200个英语故事和12800个汉语故事。它们通常用于开放域事件提取任务:检测新事件的发生(检测)和跟踪旧事件的重现(跟踪)。

  • CEC语料库3 (Chinese Emergency corpus 3)收录了以中文报道的突发新闻事件,共332篇文献。它包括地震、火灾、交通事故、恐怖袭击、食物中毒等5种事件类型

  • DuEE 2020语料库4由百度发布,在语言与智能技术竞赛2020中采用。根据百度的热搜板,选择并确定语料库。它由17000个句子组成,包含65个事件类型的20000个事件。

综上所述,虽然已经有各种各样的标注事件抽取语料库,包括封闭域语料库和开放域语料库,但仍然存在许多局限性。首先,从领域角度出发,现有的语料库大多是针对有限事件类型的闭域任务开发的。其次,从语料库规模来看,大多数语料库都是小而稀疏的,因为注释是一个成本高昂的过程。第三,从实用角度看,现有语料库的可重用性很大程度上取决于目标域。最后,目前仍缺乏公认的大规模开放域事件提取语料库。

2.3 事件提取评估指标

事件提取任务,尤其是闭域事件提取任务,可以看作是分类任务或序列标注任务。现有的文献大多使用分类指标来评估事件提取的性能。根据IE和TM,通常通过计算真阳性和负阳性的数量,以及假阳性和负阳性的数量来衡量性能。最常用的指标,如精度、召回率和F1评分,计算如下:

P ,R,F1

https://zhuanlan.zhihu.com/p/97870600

这些性能度量提供了“混淆度量”的简要解释。真阳性(TP)和真阴性(TN)是正确预测的观察结果。相反,假阳性(FP)和假阴性(FN)是实际类与预测类相矛盾的值。

开放域事件提取旨在检测未报告的事件或跟踪先前发现的事件的进展。在大多数情况下,它没有预定义的模式和事件类型。但在标注语料库的帮助下,它仍然可以转化为一个分类问题,从而使用上述评价指标。许多研究通过聚类算法进行开放域事件提取,因此经常使用互信息或卡方等聚类评价指标。例如,归一化点态互信息(nPMI)可以用来测量槽相干[37]:

其中W为语料库中的总字数;F (x)和F (y)是x和y在语料库中的频率;F (x, y)为词对(x, y)在语料库中的出现频率。还有其他变体,如文献[40,41]中使用的cP MI (Corpus Level Significant PMI)和PM I2

3. 闭域事件提取

本节将闭域事件提取方法分为模式匹配、机器学习、深度学习和半监督学习方法。分类排列也考虑并遵循了该技术成为流行主流的时间。本文着重介绍了闭域事件提取的主要思想、常用框架、应用领域、优点和缺点。本研究没有考虑到个别方法的许多特点。

3.1 基于模式匹配的方法

基于模式匹配的方法的一个特点是它们依赖于领域特定的事件模板,这需要大量的人工知识工程来构建精心设计的特征。最早的事件提取方法主要是基于语法树或正则表达式。

典型的代表作品可能是autoslog系统,由Ellen在1993年[42]开发。首先在概念句子分析器的帮助下定义了13种语言模式。这些语言模式被用来自动建立一个特定领域的概念字典。然后autoslog使用触发词字典来检测潜在的事件。最后,它将事件模式和语言特征(如句子解析器生成的词性标记)联系起来,组合参数及其对应的角色。我们在图4中总结了这个典型的过程。

图4.

由于其在特定领域的出色表现,基于模式匹配的事件提取的研究在各个领域爆发,如生物医学[43,44,16]、通用信息提取[45,46]、财经[47]等。Akane等人[43]设计了一个程序,使用完整的解析器从生物医学论文中提取事件。

Halil等人[44]使用句法依赖和规则来进行生物事件提取。Ekaterina等人[16]结合了手动编辑的字典和机器学习方法,在修剪的依赖图结构上提取事件触发器和参数。Roman等人[45]提出了一种自动事件模式发现方法,该方法可以从一小组“种子场景模式”开始,从未注释的文本中识别一组相关文档和一组事件模式。Chang等人[46]提出了一种通过中文POS标签器、中文术语过滤器、事件本体过滤器和摘要代理四个主要组件对中文电子新闻进行有效总结的方法。

Jethro等人[47]建议使用词汇-语义模式从RSS新闻提要中提取金融事件。

典型的特点体现在两个方面:(1)利用词汇特征,例如:、词性标记(POS)、实体信息和形态学特征(标记、引理等);(2)利用通常由具有领域知识的专家设计的精细事件模式。

下面总结了基于模式的方法的几个优点。首先,它比数据驱动的方法需要更少的语料库。其次,它具有更好的可解释性,因为它的模式是手工设计和维护的。第三,只要图案设计得很好,就可以在特定的领域内达到较高的提取精度。

我们从视图的设计和一般化方面总结了基于模式的方法的缺点。首先,开发和维护微妙的事件模式是相当耗时和劳动密集型的。其次,由于模式设计在很大程度上依赖于文本的表达形式,因此将模式从一个领域转移到另一个领域需要付出很大的努力。设计模式或模板的低可重用性限制了其泛化

3.2 基于机器学习的方法

为了缓解设计精细事件模式的困难,许多研究人员探索了机器学习的方法来提取事件。在本节中,我们首先回顾了典型的基于机器学习的事件提取文献,并从年份、模型、范式、技术、使用的数据集、执行的事件级别和应用领域的角度将其总结在表2中。我们还在图5中总结并绘制了典型的抽象过程。然后,我们着重从特征工程、范式、技术和应用领域讨论典型研究的共同特征,而没有考虑花费大量精力描述具体方法的细节。最后总结了基于机器学习的事件提取方法的优缺点。

                                                图5

以往基于机器学习的事件提取方法报告的特征可以分为词汇特征和上下文特征。词汇特征包括词性标记(POS)、实体信息和形态学特征(如标记、引理等)[3]。上下文特性包括本地信息(句子级)、全局信息(文档级)和外部字典。这些特征是互补的,已有各种研究将相关文件的全球证据与地方决策相结合[59,60,61]。例如,为了克服孤立分析句子的不足,Huang和Riloff[51]提出了一个自下而上的架构,以考虑更大背景的观点。它通过整合顺序句子分类器来实现,这些分类器捕捉文本的衔接,包括跨句子的词汇联系和话语关系。为了解决句子级事件抽取依赖于局部信息的歧义问题,Liao和Grishman[59]利用文档级统计信息改进句子级事件抽取,实现事件内和事件间文档级的一致性。Patwardhan和Riloff[60]将短语和句子证据结合到一个概率框架中,以提高准确性。香等人[53]采用盲跨实体推理,通过考虑实体和角色的一致性和分布,改进句子级ACE事件抽取。

考虑到事件提取任务的复杂性,最早的研究者将事件提取任务分为四个子任务:事件触发识别、事件类型分类、参数检测和角色分类。关于流水线训练分类器的研究很多,其优点是前一种分类器可以为后一种分类器提供信息[63,62,61,4,59,37,57,56,54,53,52,52,5,14,17]。例如,Peng等人[14]提出了一个自动管道来提取药物不良事件(ADE),在将生物医学文本映射到药物事件之前,使用Naïve贝叶斯和支持向量机(SVM)检测与药物相关的推文并进行情感分析。然而,流水线训练的缺点也很明显:错误传播(级联缺陷)。为了处理这一问题,研究者采用联合训练的方式,将事件提取任务视为多分类问题[60,51,50,49,48]。例如,Chen和Ng[49]采用联合学习进行汉语事件提取,研究了(1)利用零代词解析和名词短语共指解析结果的各种语言特征,以及(2)利用触发概率和触发类型一致性的特征。

从技术角度看,支持向量机(SVM)、最大熵(ME)、朴素贝叶斯(NB)、条件随机场(CRF)、整数逻辑规划(ILP)、分层聚类(HAC)是最常用的机器学习算法。Lu和Roth[48]提出了一种用于自动事件提取的半马尔可夫CRF方法,并进一步开发了一种新的学习方法,称为PM(结构化偏好建模),它允许以声明式的方式有效地合并结构化知识。Björne和Salakoski[52]使用支持向量机以流水线方式从研究文章中提取生物医学事件(生物分子相互作用的详细描述)。

从应用领域来看,这些基于机器学习的事件提取模型在很多领域都有发展,包括一般信息提取[63,62,61,59,53,17,51,50,49,48]、生物医学[58,57,56,54,52,14]、智能交通[5]、安全监控[4]等。例如,Sakaki et al.[5]开发了一个系统,利用社交媒体提取实时驾驶信息,为驾驶员提供重要事件,如交通堵塞和天气报告。这对于智能交通系统(ITS)部署较差的地区是有益的。在安全领域,Tanev等人。[4]执行实时新闻事件提取,用于全球危机监测。许多研究工作都围绕着BioNLP事件提取共享任务展开,例如,从文本[57]中提取蛋白质相互作用。Li等人[58]结合了三种监督机器学习模型:CRF、AdaBoost和SVM,自动从临床文本中提取药物事件。Björne等人[54]研究了在PubMed尺度上执行事件提取的可行性。古板的et al。[56]利用丰富的特征构建了提取结合和调控等复杂生物分子事件的模型。Ananiadou等对当前系统生物学事件提取方法进行了综述。

在具体领域或提高提取精度方面都有很多研究涉及。Henn等人[17]对可视化技术如何增强自动事件提取进行了案例研究。Naughton等[62]从异构新闻源中合并和提取事件。也有很多研究涉及到其他语言事件的提取,例如中文事件提取[64,65,50]。Li等人[50]采用联合学习的方法提取中文事件,利用触发器过滤模式解决了假触发提及率高的问题。

最后,我们通过比较基于机器学习的事件提取方法和基于模式匹配的方法,总结了基于机器学习的事件提取方法的优缺点。好处有两方面。机器学习方法大大减轻了设计精细模式的工作量,具有更好的泛化和可重用性。缺点在于三个方面。首先,监督方法需要更多的标记数据来训练模型。其次,特征工程是一个耗时但影响提取精度的关键步骤。第三,传统的机器学习方法在深度或复杂非线性关系的学习上存在局限性。

3.3 基于深度学习的方法

特征工程是传统事件提取方法面临的主要挑战。传统的机器学习方法在深度或复杂非线性关系的学习上存在局限性。基于深度学习的方法可以缓解这些不足,因为它们有两个显著的特点。首先,输入的嵌入式表示适合大数据。其次,特定的深度架构可以更好地捕捉各种更复杂的非线性特征。本节首先回顾了最近基于深度学习的事件提取文献,然后从年份、模型、范式、技术、使用的数据集、执行的事件级别和应用领域等方面对其进行总结,如表3所示。然后着重从特征、技术和应用领域等方面探讨典型研究的共性,而没有过多地描述具体方法的细节。最后总结了基于深度学习的事件提取方法的优缺点。

深度学习方法可以学习知识的分布式表示,如语义特征,避免特征工程。单词嵌入、字符嵌入、位置嵌入、实体类型嵌入、POS标签嵌入、实体类型嵌入、单词距离、相对位置、路径嵌入等是最常用的特征[68,79,78]。除了输入的多通道分布式表示之外,研究人员还采用了一些技术来捕捉这些表示中包含的特征。例如,为了更好地捕捉生物医学文档中局部和全局上下文之间的复杂关系,Zhao等人[68]使用基于依赖的GCN网络来捕捉局部上下文,并使用超图来建模全局上下文。此外,局部和全局上下文之间的细粒度交互被一系列堆叠的超图聚合神经网络(HANN)层捕获。建议的框架的概述如图6所示。

最近的事件提取研究大多基于深度学习技术,如CNN [3,79,76], LSTM [12,73], Transformer [7,66,67], GCN [67,68,78], Bert[75,6,71]等。还有许多混合方法将上述架构集成在一起,以获得超性能[7,12,70]。我们将上述研究按所使用的方法进行分组,并分别对典型作品进行简要介绍。

CNN的基础。与传统的机器学习方法相比,CNN可以很好地捕捉句子中的局部语义特征,克服了复杂的特征工程[3,79]。然而,CNN在考虑多事件句子时,由于不能捕捉长期信息,可能会错过有价值的事实。Chen等人[3]使用动态多池卷积神经网络(DMCNN)自动提取词汇级和句子级特征。Björne and Salakoski[79]使用CNN来捕获统一的线性句子表示,包括语义嵌入、位置嵌入和依赖路径嵌入。

基于RNN和LSTM。RNN和LSTM体系结构擅长捕捉长期和短期记忆信息,因此适用于序列标记和长依赖文本。事件抽取也可以看作是一个序列标注任务。例如,Nguyen等[80]使用两个双向rnn来学习更丰富的句子表示。然后利用这个表示来联合预测事件触发器和参数角色。魏et al。[12]建议采用Bi-LSTM-CRF-RNN-CNN方法从临床文件中提取药物和相关的药物不良事件(ade)。具体来说,在命名实体识别阶段,BI-LSTM层计算序列中每个标记的所有可能标签的分数。然后,CRF层利用其邻居的信息预测令牌的标签。在关系分类阶段,所有可能的候选关系对由一个融合了CNN和RNN的结构产生。为了处理错误传播问题,Wei et al.[12]提出了一种联合用药和不良药物事件提取的方法。

注意力和变压器为基础。注意机制允许深度学习模型学习最重要的信息,并通过为不同的嵌入分配不同的权重来忽略噪声。注意机制的作用对象分为词级注意、句子级注意、文档级注意和通道级注意。从本质上讲,Transformer是一个多头的自我关注架构。许多基于注意力或基于变压器的事件提取研究已经出现。例如,Zheng等[7]提出了一个端到端的模型Doc2EDAG,它可以生成一个基于实体的有向无环图来完成文档级的事件抽取。Doc2EDAG与经典方法Bi-LSTM-CRF的区别在于Doc2EDAG使用了Transformer而不是原始的编码器LSTM。Transformer层通过多头自注意机制对嵌入序列进行编码,在标记序列之间交换上下文信息。Lu等人[66]也提出了一种从序列到结构的生成范式,可以端到端从文本中直接提取事件。与[7]的区别在于[66]使用事件模式作为约束来控制事件记录的生成。

基于GCN。同一个句子中存在的多个事件、跨多个句子的一个事件的参数或文档级事件提取都面临一个挑战:远程依赖关系。利用依赖结构的一个常见解决方案是使用通用依赖解析。用节点表示符号、边表示有向语法弧的句法图卷积网络(GCNs)有助于缓解这一挑战。针对同一个句子中存在多个事件的困难,Liu等[78]提出了一种新的联合多事件抽取(joint multiple events Extraction, JMEE)框架,通过引入基于注意的GCN对依赖图信息建模,联合抽取多个事件触发器和参数。Ahmad等人[67]使用Graph Attention Transformer Encoder (GA TE)来学习远程依赖关系,并将其应用于跨语言关系和事件提取。

伯特。EMLo、Bert等预训练语义表示被广泛应用于多种NLP任务中,并在各种NLP任务中表现出性能的提高。Bert是一个双向转换器架构模型,它经过大量语料库的训练,在标记上下文的条件下学习了相当好的语义表示,并保留了丰富的文本信息[6]。最近,许多研究使用Bert预训练表示作为共享文本输入特征。例如,Liu等人[75]明确地将事件牵引任务视为机器阅读理解问题,并使用问答技术来执行事件提取。Min等人[71]提出了一个事件提取框架,即挖掘机- COVID,该框架从新闻和科学出版物中提取COVID- 19相关事件及其之间的关系。利用这些事件构建时间和因果分析图,帮助政府对信息进行整理,及时调整相关政策。该框架使用Bert、Pooling和线性层来提取时间关系和因果关系。

其他的新方法。除了前面提到的基于深度学习的模型,新的事件抽取范式也出现了,比如基于问答的方法[75]。例如,Liu等人[75]明确地将事件牵引视为机器阅读理解问题,并使用问答技术来执行事件提取。许多研究都在采用提高提取精度的策略[74]。现有的许多模型很少考虑不同句子中事件提及与事件参数之间的关系。为了应对这一挑战,Huang和Peng[74]提出了一个文档级事件提取框架,DEED,利用深度V值网络(DVN)来捕获跨事件依赖和相互引用解析。从应用角度来看,这些基于深度学习的事件提取模型涉及多个领域,包括一般信息提取[3,80,78,77,77,74,66]、生物医学[79,12,69,68]、金融[7,6]、多媒体[76]、法律[15]、社会[73,71,70]、政治[72]、跨语言[67]等

最后,我们通过与传统方法的比较,总结了基于深度学习的事件提取方法的优缺点。深度学习本质上是机器学习的延伸和发展。所以它和机器学习一样有利有弊。在这里,我们重点总结了它们的优缺点。好处有三。首先,深度学习方法具有更强大的非线性表达能力,可以捕捉到更复杂的特征之间的关系,避免了很多特征工程。其次,每种深度学习方法在获取句法和语义特征方面都有自己的特点和强项。例如,LSTM和Transformer架构都擅长捕获远程依赖关系。第三,预先训练的模型,特别是Bert,能够适应优秀的上下文信息,被广泛用作标准输入特征。深度学习方法的缺点如下:首先,由于深度学习模型的结构复杂,基于深度学习的模型主要依靠巨大的标注语料库来训练模型。其次,大量的参数设置可能会影响性能,如学习率、训练时间等。然而,许多研究者已经探索了半监督和无监督学习方法来缓解标注语料库获取的困难。

3.4 半监督和远程监督方法

大多数事件提取系统使用监督学习进行训练,并依赖于一组带注释的数据。由于任务的领域特殊性,事件提取系统必须为每个领域重新训练新的海量注释数据[81]。然而,人类标记的训练数据的生产成本很高。近年来,一些研究人员探索了新的方法,如半监督和远程监督方法,以自动产生更多的训练数据。

Semi-Supervised方法。半监督学习(SSL)通过使用无标记数据和有标记数据来帮助实现强泛化已经引起了相当多的关注[13,82,83,84,85,86,87,88,89]。许多研究使用各种SSL方法来帮助生成数据或扩充数据,用于事件提取:角色识别名词[81]、线性判别分析[86]、矢量量化变分自动编码器[85]、多模态生成对抗网络[89]等

Huang和Riloff[81]使用角色识别名词通过自举解决方案学习提取模式。然后使用角色标识名词和模式为事件提取分类器创建训练数据。Mansouri等人[86]首先使用卷积神经网络从文本和图像中提取显式特征,然后使用线性判别分析(LDA)预测未分类数据的类别。一旦达到预测的准确性,显性特征和预测标签将被用来最终预测一条新闻是假的还是真的。将标记实例和未标记实例结合起来训练半监督学习模型。Chen等人[89]将多模式生成对抗网络(mmGAN)模型扩展为半监督架构,该架构试图区分数据是真实的还是生成的,并将其归类为两类之一:交通事件或非交通事件。如图7所示,多模态特征学习体系结构由三个部分组成:Generator G, Discriminator D和Classifier C。

与上述侧重于数据生成和数据扩充的方法不同,Zhou等[88]设计了一种新型半监督框架DualQA (dual question answers),用于解决资源匮乏场景下的事件参数提取.

遥远的监督方法。远程监督是一个成功的范例,它通过自动将大量事实数据库与文本[90,91,92,93,94]对齐,为事件提取系统收集训练数据。例如,Reschke等人[90]提出了一个新的公开可用的数据集,并使用了飞机失事事件的远程监督方法。Yang等人[91]首先使用Distance Supervision (DS)自动生成标记数据,然后使用序列标记模型从财务公告中提取文档级事件。数据生成包含两个步骤。首先,可以通过查询预定义的字典(金融事件知识库)自动标记事件触发器;因此,事件提及可以在事件触发器和事件参数标记之后自动识别。第二,一旦事件被提及,它被标记为一个积极的例子;然后,公告中的其余句子被标记为否定示例,它们都构成文档级数据。深度事件抽取架构有一个用于句子级的Bi-LSTM-CRF模块和一个用于文档级事件抽取的CNN模块。Zuo等[92]首先设计了一种词典增强注释器(Lexicon Enhanced Annotator, LexiAnno),基于语言知识提取多个因果事件对,通过远程监督自动标注句子。实验结果表明,所提出的数据增强框架优于其他基准方法。Alrashdi和O’keefe[93]为了解决危机类型覆盖的数据缺失和不平衡问题,利用远程监督自动生成大规模的带标签推文数据,用于危机应对.

3.5 混合方法

每种单独的事件抽取方法都有其优缺点。结合不同的技术可以整合多种方法的优点,显著提高性能。越来越多的研究者采用多种方法,即混合模型。我们回顾了已有的文献,并在单事件提取任务和综合系统两种场景下进行了讨论。

3.5.1 单事件提取任务

整合不同的范式。如上所述,我们将研究分为四种范式:模式匹配方法、机器学习方法、深度学习方法和数据增强方法。为了提高事件提取的准确性,许多研究者考虑了不止一种范式。例如,Reschke等人。

[90]将远程监督方法扩展到基于模板的事件提取,构建新的语料库,然后使用线性链CRF模型对该数据集的性能进行测试。Y ang等[91]使用基于模式的方法对句子级和文档级语料库进行标注,然后使用深度学习方法进行事件抽取

整合不同的技术。由于CRF和Bi-LSTM-CRF被广泛应用于不同的NER任务,SVM和RNN-CNN被广泛应用于关系分类任务。RNN擅长捕捉全局特征,而CNN擅长捕捉局部特征。Wei等人[12]提出了一种Bi-LSTM-CRF-RNN-CNN方法,从临床文件中提取药物和相关的药物不良事件(ade)。Li等人[58]结合了三种监督机器学习模型:CRF、AdaBoost和SVM,自动从临床文本中提取药物事件。GCN擅长对长依赖项解析进行建模,而Transformer擅长捕获最重要的信息。Ahmad等人[67]提出了一个融合GCN和Transformer的深度模型,基于依赖解析结果生成结构化上下文表示。

Bert等预训练模型能够很好地表示上下文语义信息,并已被用作标准输入特征。然后,其他深度学习架构可以基于这个输入层进行堆叠、微调和训练,以执行相关任务。Lybarger等[69]从临床文本中提取COVID-19诊断和症状。本研究使用Bert、Bi-LSTM、Attention来生成泛表示。首先,利用Bert算法将输入的句子映射为上下文化的词嵌入;然后,这些表示在不调整Bert的情况下提供给Bi-LSTM。最后,将每个跨度表示为Bi-LSTM隐藏状态的注意加权和。

3.5.2 综合系统

近年来,出现了与事件相关的综合系统。值得注意的是,这些系统从多个来源、多种语言和异构数据模式(演讲、文本、图像和视频)中提取多种分类信息(例如,实体、关系和事件)。

Li等人[76]提出了一个全面的、开源的多媒体知识提取系统(GAIA),并创建了一个连贯的、结构化的知识库。这个GAIA系统能够搜索复杂的图形查询,并检索多媒体证据,包括文本、图像和视频。具体而言,作者在文本知识提取(TKE)分支中使用Bi-LSTM-CRF模型和基于cnn的模型提取粗粒度事件和参数。

Wen等人[18]也提出了一个可以自动构造时间事件图的综合提取系统(RESIN)。RESIN从句子级事件提取扩展到跨文档、跨语言、跨媒体事件提取、共引用解析和时间事件跟踪。

这些与事件相关的综合系统大大提高了信息检索的准确性。混合方法集成了多种技术、多源、多语言和异构数据模式的优势,使其成为未来的主流范式,特别是在工业应用中。

4. 开放域事件提取

开放域事件提取最显著的特点是它不假定预定义的事件类型和模式。它通常侧重于检测新的或意想不到的事件[19,11,95],事件文本生成[96,97],具体的领域应用(如能量预测[98]),以及其他一般信息提取[99,23,37,21,100,10,9,8,101]。在本节中,我们首先回顾了最近的开放域事件提取文献,并从年份、模型、范式、技术、使用的数据集和子任务的角度将其总结在表4中。然后从技术角度将文献分为基于聚类、基于解析、基于词典、基于半监督和远程监督、基于贝叶斯、基于对抗域适应和基于开放域事件文本生成。我们主要从特征、技术和应用领域等方面讨论每一个典型研究的最显著特征,很少对具体方法的细节进行描述。最后总结了开放域事件提取方法的优缺点。

基于聚类。社会事件是各种语义的独特聚合,相关事件或演化往往具有内聚性。因此,基于密度的聚类算法可以用于检测新的事件和进化发现。例如,对于每个事件组,还可以通过事件模式归纳(event schema Induction, ESI)使用槽值模式构建事件模式。Peng等人[11]提出了一个流式社会事件检测和进化发现框架。具体而言,首先构造了一个基于事件的异构信息网络(HIN)和一种新的两两普及图卷积网络(PP-GCN)。然后提出了一种用于流事件检测和进化发现的并行异构聚类算法(H-DBSCAN)。

基于解析。语法分析结果被广泛用于增强开放域事件提取任务。例如动词标记有助于检测事件触发器,而名词标记有助于过滤事件参数。还有句法依赖关系有助于捕获同一事件的角色和参数,这些角色和参数出现在多个句子中。Ritter等人[8]介绍第一个针对Twitter的开放域事件提取和分类系统(TwiCal)。如图所示

处理管道包含POS标记、时间分辨率、NER、事件标记器、重要性排序和事件分类组件。Shen等人【99】提出了一个开放域事件类型归纳框架(ETYPECLUS)。为此,框架首先选择谓词和对象头,然后消除谓词的歧义,最后归纳通过嵌入和聚类算法对感知、对象头部进行配对。Chau等人【98】使用句法解析、WordNet和词义消歧工具,用于从新闻标题中提取事件。那么事件是用于向深层神经网络输入数据,以预测天然气价格。

基于词典。许多研究者贡献了词汇或短语来辅助连续事件提取任务。例如,de Vroe等人[22]提出了一个开放域的、基于词典的事件提取系统MONTEE,可以区分不同类型的模态。它可以告诉你一个事件已经发生了,没有发生,或不确定。该结果对于避免提取不真实事件具有一定的参考价值。Arnulphy等[101]使用模式和浅层解析来自动构建名词事件提取的词典。

基于半监督和远程监督。半监督和远程监督方法能够生成高质量的训练数据。V eyseh等人[19]通过微调预先训练的语言模型GPT-2来自动生成新的训练数据,探索了一种开放域事件检测的新方法。特别地,采用了一种新颖的师生架构,以保持原始数据与生成数据的一致性。Dor等人[102]使用规则自动提取描述经济事件的事件提及的弱标签。Araki和Mitamura[15]使用远程监督进行开放域事件检测。它的显著特点是可以检测到各种各样的事件。

Bayesian-based。大多数基于贝叶斯的开放域事件提取模型假设句子或文档是事件类型、槽、实体和上下文特征的联合分布。例如,Wang等人[21]提出了一种基于贝叶斯和生成式对抗网的开放事件抽取模型(AEM)。具体地说,使用狄利克雷先验和生成器来捕获潜在事件的模式。利用判别器将潜在事件重构的文档与原始输入文档区分开来。与其他基于gan的文本生成方法捕获生成的文本序列不同,AEM中的生成器学习事件分布和事件相关词分布之间的投影函数;因此,它捕获与事件相关的模式。Zhou等人[9]提出了一个贝叶斯模型,称为潜在事件模型(Latent Event model, LEM),从社交媒体中提取事件的结构化表示。LEM最显著的特点是它是一种完全无监督的方法,不需要注释数据。参考[37]使用神经潜变量网络和贝叶斯推理模型(ODEE)提取事件类型、模式和参数,得到了比其他基本模型更好的结果。

对抗的领域适应。对抗域适应(adversarial domain adaptation, ADA)框架最早由Ganin和lemmpitsky提出,已被广泛应用于多种NLP任务中[105]。Naik和Rose[23]利用对抗域适应(ADA)框架来识别事件触发器。该框架将事件触发器识别任务视为令牌分类问题。通过训练表示学习器生成标记级表示,该表示对触发器识别具有预测性,但对域预测没有预测性,使其具有更强的域不变性。其明显的优点是不需要对目标域数据进行注释。

打开域事件文本生成。自动故事生成(ASG)一直是兴趣和开放领域事件抽取子任务的研究问题。Fu等[96]以实体链为骨架执行开放域事件文本生成任务。为了构建这个数据集,我们提出了一个wiki增强生成器框架,该框架包含一个编码器、一个检索器和一个解码器。编码器将实体链编码为隐藏表示,而解码器从这些隐藏表示解码并生成相关的故事。检索器负责收集可靠的信息,以增强生成文本的可读性。Martin等人[97]将自动化故事生成任务建模为抽样问题。它通过从事件分布中选择最大概率来生成以下事件

我们通过讨论上述工作与闭域事件提取方法相比的优缺点来结束这一节。大多数开放域事件提取工作都集中在检测新事件和提取相关信息上。该信息对于需要广泛覆盖、细粒度和动态演变事件类别的全面知识的场景是有益的,例如,基于新闻的股票价格预测。

但是从前面提到的文献综述中,我们可以发现现有的方法主要是基于句法分析、聚类、贝叶斯、词典等。目前的方法在两个方面的输出结果还不如闭域事件提取结果完美。首先,由于开放域事件提取不需要预定义的模式,因此提取的结果是多方面的,增加了利用的难度。其次,由于开放域事件提取没有预定义的事件类型,一些研究使用提取的事件触发器来表示事件类型。虽然许多研究者试图通过聚类或潜在事件类型推断来归纳这些事件类型,但结果并不总是方便或可理解的。由于动态演化事件类别的实用性,我们相信在开放域事件抽取中会有更多的研究探索新的范式和技术。

5. 讨论

在本节中,我们总结并讨论当前事件抽取中常见的研究问题。尽管在事件提取方面取得了长足的进展,但仍然存在一些挑战,但不限于以下几个方面。

数据集。尽管已有各种标注语料库,许多研究者也探索了一些半监督的方法来自动标注数据,但与大数据算法的要求相比,数据的大小和类别仍然显得尴尬。另一个问题是类别失衡。例如,现有语料库类别主要集中在自然灾害、社会关系、生物医学等方面。一些类别的规模很小。更糟糕的是,有些领域没有带注释的语料库。更多高质量的注释数据需要更多的研究,如半监督或远程监督方法。

文档级和语料库级事件提取。现有的事件提取方法大多是在句子范围内提取事件参数[7,61]。然而,以下两种情况的提取结果并不理想。首先,同一事件的事件论证总是分散在不同的句子中。另一种是多个句子或文件描述同一事件。前者导致提取结果不完整,后者导致提取结果冗余。文档级和语料库级的事件提取任务面临以下挑战:长期依赖和实体与事件相互引用。研究人员已经开始通过各种机制来解决这一问题,如端到端结构化预测[74]、序列到结构生成范式[66]、Open-schema事件分析[106]等。

跨语言。研究人员提供了相对丰富的英语事件提取语料库,而其他语言的事件提取语料库较少。最近跨语言迁移学习方法被用于事件提取[107,67]。例如,Subburathinam等人[107]使用基于gcn的网络来训练从源语言注释到目标语言的事件提取模型。但是,GCN不擅长捕获依赖树中的远程依赖关系或非直接连接关系。Ahmad等人[67]改进了这项工作,通过使用注意机制来学习不同句法距离的单词之间的依赖关系。跨语言事件抽取可以节省其他语言语料库的构建工作,对低源语言语料库也有很大的帮助

事件共同引用。通常,同一个事件经常同时存在于多个文档中。例如,不同的新闻媒体报道相同的热点新闻是常见的情况。即使是文档级的事件提取也不能减少冗余。事件共引用或事件合并对信息检索至关重要,特别是在涉及多源、多语言和异构数据模式(演讲、文本、图像和视频)的事件相关综合系统中。

开放域事件提取需要新的模式和技术。闭域事件抽取由于语料库丰富、方法成熟、评价机制公认,目前的研究主要集中在闭域事件抽取上。尽管开放域事件提取具有重要意义,但与封闭域事件提取相比,它还没有得到足够的重视。我们回顾了最近的开放域研究,发现性能没有达到预期的水平。一些挑战仍然阻碍它的推广和工业应用。首先,大型的、高质量的、公认的开放领域语料库较少。其次,需要提出一套成熟的开放域提取结果评价机制。第三,开放域事件提取需要开发新的模式和技术来提高性能。我们相信这是一个很有前途的研究方向。

6. 结论

本文回顾和总结了文本事件抽取的相关文献。总的来说,我们专注于提供事件提取任务的全面概述,忽略了个别方法的独特性。具体而言,我们首先介绍了事件抽取的相关概念,如EE目录、任务定义、语料库、评价指标等。然后从技术角度对文献进行总结。在封闭域和开放域的事件抽取部分,我们分别从年份、常用框架、技术、语料库、应用领域、优势和劣势等方面总结了事件抽取的相关文献。最后,总结和讨论了当前闭域和开放域事件提取的常见问题和相关进展。事件提取,特别是开放域事件提取,在信息提取中发挥着至关重要的作用,因此受到越来越多的关注。这项研究提供了一种从中等难度的角度快速理解最新事件提取任务的方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容