来源:A Survey of Open Domain Event Extraction
概述
开放域事件抽取概述:目前在EE领域研究较深的工作都是基于预定义的事件类型,常见数据集有ACE2005和TAC KBP2017,基于这些数据集训练得到的模型在海量文本中的覆盖率很低,无法推广到现实场景中。相比于预定义的EE有各自明确的领域以及事件定义标准,开放域EE没有固定明确的场景,所用文本来自于类似社交媒体等大量嘈杂的语料库。导致开放域的EE缺少现有的参考文本以及大量复杂的基础事件类型和架构,但除去这些限制,也使得开放域EE更加有研究前景。
下文将从数据、模型、评价指标这几个方面介绍。
数据
由监督学习训练得到的开放域事件抽取模型很难识别到大范围的事件类型,且监督学习所使用的人工标注数据成本较高。为了利用现有的未标记文本数据,有研究提出利用知识库自动生成标记数据的方法。survey讨论了两种生成标签数据的方法:通过识别key argument和key trigger来生成数据;二是仅通过识别key argument生成数据。
知识库源
FreeBase:一种语义知识库,它使用复合值类型(CVT)将多个值组合为一个值。一条CVT就可以认为是一个事件,其类型定义为该事件的类型,一条CVT下有若干条instance,每个instanc下的值作为事件的argument。例如下图中的sold
为business.acquisition
的一个实例,图3为sold
作为事件business.acquisition
参数对应的值。
FrameNet:也是一种语义知识库,存储有关词汇和谓词语义信息。FrameNet里大范围标注了许多个frame,每个frame下又有对应的词元。一个frame即可认为一种事件类型,frame下的词元可以认为当前事件的触发词。例如句子:
Michelle baked her mother a cake for her birthday.
其中
bake.v
是Cooking_creation
类型的一个词元,即在句中bake
可以被标记为触发词来触发事件类型Cooking_creation
。FrameNet资源获取途径:传送门
Wikipedia:维基百科数据可以作为一个半结构化,覆盖大范围的知识库,对实体链接、命名实体识别都有很大效用。survey认为,在事件抽取中,可以将相同含义的实体提及链接到特定的实体,提高开放域EE模型效果。
数据生成途径
直接使用远程监督的方法,在知识库的辅助下生成数据有两方面的问题:一是现存知识库未明确给出触发词,二是事件实例对应的参数及其角色不仅出现在单一句子中。survey介绍了利用FreeBase和FrameNet来生成数据的方法,其中有两种途径。
下列是第一种途径识别触发词+关键参数:
- 选择key arguments。
- 使用key arguments来标注事件以及触发词。
- 借助语言知识库(FrameNet)来过滤噪声并扩充更多的触发词。
- 使用soft DS自动标注训练集。
参考论文:Automatically labeled data generation for large scale event extraction
第二种途径是仅识别关键参数:
- 从CVT条目中识别key argument。
- 基于现存结构化知识库生层标签数据。
参考论文:Scale Up Event Extraction Learning via Automatic Training Data Generation
模型
survey中调研的文章来源于关系抽取与零样本学习。
参考文献:
Zero-shot relation extraction via reading comprehension.
Zero-Shot Transfer Learning for Event Extraction.
评估
(待补充...)