知识图谱学习笔记(八)——事件抽取

事件抽取

1.事件抽取的任务定义

  • 事件抽取是信息抽取中的难点问题

    • 事件抽取依赖实体抽取和关系抽取
    • 相较于实体抽取和关系抽取,事件抽取难度更大


      在这里插入图片描述

      实体抽取:1992年10月3日,奥巴马,米歇尔,三一联合基督教堂
      关系抽取:夫妻关系:奥巴马,米歇尔
      事件抽取:事件类型:结婚事件,配偶:奥巴马,配偶:米歇尔,事件:1992年10月3日,地点:三一联合基督教堂

  • 事件的定义:事件起源于认知科学,常常在哲学、语言学、计算机科学等领域被广泛讨论。在不同的领域,针对不同的应用,不同的人对事件有不同的描述。

  • 事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。

    • 不同的动作或者状态的改变代表不同类型的事件
    • 同一个类型的事件中不同的元素代表了不同的事件实例
    • 同一个类型的事件中不同粒度的元素代表不同粒度的事件实例
  • 事件抽取的定义:从自然语言文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来,如什么人,什么时间,在什么地方,做了什么事。

  • 事件抽取相关的术语:事件描述(Event mention),事件触发词(Event Trigger),事件元素(Event argument),元素角色(Argument role)

2. 事件抽取评测及语料资源

在这里插入图片描述

3. 事件抽取的典型方法

3.1 基于模式匹配的方法

  • 平面模式主要基于词袋等字符串特征构成模式
  • 结构模式更多地考虑了句子的结构信息,融入句法分析特征


    在这里插入图片描述
  • 缺点:领域相关,可扩展性差;需要大量的人工标注,耗时耗力

3.2 基于机器学习的方法

  • 目前主要采用统计机器学习的方法,将事件实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注语料库上训练生成模型,然后再识别事件及其元素。

    • 基于特征向量方法:利用最大熵、朴素贝叶斯和支持向量机等
      • 主要问题:如何获取各种有效的词法、句法、语义等特征,并把它们有效地集成起来,从而产生描述单词或者词组触发事件和候选事件元素扮演事件角色的各种局部特征和简单的全局特征。
      • 基于句子级信息:从句子中提取特征,利用最大熵、朴素贝叶斯和支持向量机等模型完成事件抽取
      • 基于篇章和背景信息:在句子级信息基础上更多地考虑篇章级信息和丰富的背景知识。
    • 基于结构的方法:依存树机构、自定义联合结构等
      • 主要问题:将时间抽取堪称一个结构预测的问题。如何建模事件的结构并有效地挖掘反映事件的结构化的信息及特征
      • 看做依存树结构预测问题:生物事件
      • 自定义联合结构的预测问题:触发词和事件元素联合预测
    • 基于神经网络的方法:多层感知机、卷积神经网络、循环神经网络等
      • 主要问题:如何设计合理的网络结构,从而捕捉更多的信息,进而更准确的完成关系的抽取
      • 网络结构:不同的网络结构捕捉文本中不同的信息
  • 基于神经网络的方法:基于动态最大池化技术的卷积神经网络Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks(Chen et al., ACL 2015)

    • 动机:传统方法主要提取两类特征:词汇特征和句子级特征。其中词汇特征过于依赖人工,是一种独热表示,缺乏语义;句子级特征会用到复杂的NLP工具,引起错误传递。
    • eg:
      S1:Obama beats McCain(Elect Event)
      S2:Tyson beats his opponent(Attack Event)
      • Beat 有两种语义,触发不同的事件。如果知道Obama和McCain是总统,Tyson是拳击选手这些,能更好地判别beat的类型。
      • 我们用词向量的方法捕捉这种语义信息
    • 方法:DMCNN
      • 由4部分组成:word-embedding learning; lexical-level feature representation; sentence-level feature extraction; argument classifier output。
      • 传统的CNN利用最大池化技术,选取最大值代表每个feature map,但是事件抽取任务重一句话存在两个或者多个事件,所以提出动态最大池化技术来根据trigger和argument候选的位置,在不损失最大值的前提下,获取更多的有用信息。


        在这里插入图片描述
  • 基于神经网络的方法:基于有监督关注机制的多层感知机模型Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms(Liu et al., ACL 2017

    • 事件的主要元素:触发词和事件角色
    • 事件角色为事件识别任务提供重要线索


      在这里插入图片描述

      在这里插入图片描述
    • 构建标准关注向量
      • 策略1:只关注角色词


        在这里插入图片描述
      • 策略2:同时关注角色词及其周围的词,距离角色词越近的词受到的关注度越高
  • 融合FrameNet的事件识别方法(Liu et al., ACL 2016)

    • FrameNet:语言学家定义及标注的语义框架资源;层级的组织结构
    • FrameNet规模:1000+框架;10000+词法单元;150000+标注例句
    • 结构相似性:
      • 框架:一个词法单元和若干框架元素
      • 事件:一个触发词和若干事件角色
    • 含义相似性:


      在这里插入图片描述
    • 系统框架图


      在这里插入图片描述
  • 基于世界知识和语言学知识的事件语料大规模自动生成方法(Chen et al., ACL 2017)

    • 现有方法的问题:
      • 有监督的事件抽取方法:过分依赖人工标注的数据,耗时、费力、成本高昂,规模小,覆盖度低
      • 无监督的事件抽取方法:抽取的结果没有规范的语义标签,很难直接映射到现有知识库
    • 动机
      • 自动生成标注语料:开放域环境,大规模自动抽取
      • 远距离监督的方法在关系抽取中取得成功


        在这里插入图片描述
    • 方法:
      • 利用世界知识和语言学知识
      • 自动生成大规模事件语料


        在这里插入图片描述
  • 事件框架学习:基于模板的事件抽取系统Template-Based Information Extraction without Templates ( Nathael Chambers ACL2011)

    • 任务:无监督地学习事件框架;事件框架描述了一类事件的结构,例如下图描述了爆炸事件的框架


      在这里插入图片描述
    • 方法:
      1. 从文本语料中抽取事件元素(用参与者、动词以及参与者与动词之间的句法关系表示事件元素)。
      2. 对抽取到的事件元素进行初步聚类(相似度利用互信息衡量)
      3. 对每个聚类结果,在搜索引擎中搜索类内的事件元素,将返回的文档作为扩充语料
      4. 利用扩充语料对每个初步聚类结果内的元素进行再聚类,再聚类的结果作为事件框架(每个聚类结果是一个事件,结果内的元素是该事件的元素)


        在这里插入图片描述

4. 事件抽取的相关应用

4.1 生成故事大纲

  • 一篇文章中多个事件Task Joint Inference for Event Timeline Construction(Quang
    Xuan Do et al.,)ACL2012
    • 任务:输入一篇文章,将文章中的事件按时序排序
    • 基本概念:
      • 时序关系:before, after, overlap and no relation
      • 事件间隔:pairs of time endpoints,共有两类:显式间隔和隐式间隔
    • 方法:
      • 识别时间构建Timeline
      • 识别事件
      • 建立事件和时间的关系
      • 同一个时间段内建立事件间的时序关系
  • 一个事件在多篇文章Building Event Threads out of Multiple News Articles(Xavier
    Tannier et al.,)EMNLP2013
    • 任务:从多篇文章中抽取同一事件的不同阶段
    • 方法:层级分类器
      1. 区分事件对之间有关系还是没有关系
      2. 区分相同事件或者顺承事件
      3. 从顺承事件中寻找反应事件


        在这里插入图片描述
  • 社交媒体中的故事大纲生成Generating Event Storylines from Microblogs(li et al.,) CIKM2012
    • 任务:给定一个关键词的查询,根据tweet消息生成故事大纲


      在这里插入图片描述
    • 方法:
      1. 检索得到相关的Tweet
      2. 选取每个阶段中代表性的Tweet
      3. 由各个阶段中代表性的Tweet联合起来得到最终的故事大纲


        在这里插入图片描述

4.2 预测新事件

  • 预测自然事件Mining the Web to Predict Future Events(Kira Radinsky et al.,)
    WSDM 2013

  • 预测股票事件Using Structured Events to Predict Stock Price Movement : An Empirical Investigation ( Ding et al.,)EMNLP2014

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容