第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取

一、知识抽取任务定义和相关比赛

示例应用: 音乐领域

1. 知识抽取

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。

知识获取关键技术与难点

2. 知识抽取的子任务:

  1. 命名实体识别 (Named Entity Recognition, NER)
  1. 术语抽取
    从语料中发现多个单词组成的相关术语

  2. 关系抽取
    王思聪是万达集团董事长王健林的独子。——> [王健林] <父子关系> [王思聪]

  3. 事件抽取

  1. 共指消解(Co-reference Resolution, CR)

3. 相关比赛:

  1. Message Understanding Conference (MUC):由美国DARPA启动并资助的项目,目的是鼓励和开发更好的信息抽取方法
    地址:https://en.wikipedia.org/wiki/Message_Understanding_Conference

  2. Automatic Content Extraction (ACE):ACE对MUC定义的任务进行了融合、分类和细化; 主要分为五大任务,包含英语、阿拉伯语和汉语

  3. TAC Knowledge Base Population (KBP):KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求主要分为四个独立任务和一个整合任务
    地址:https://tac.nist.gov/2017/KBP/

  4. Semantic Evaluation(SemEval):由ACL-SIGLEX组织的国际权威的词义消歧评测,目标是增进人们对词义与多义现象的理解
    地址:https://en.wikipedia.org/wiki/SemEval


二、实体抽取和实体链接

1. 实体抽取

实体抽取是抽取文本中的原子信息元素,例如:

  • 人名
  • 组织/机构名
  • 地理位置
  • 时间/日期
  • 字符值
  • 金额值

实体抽取举例:

实体抽取其实可以看出是序列标注的问题。
在传统方法中,常常会涉及很多人工特征,例如:

  1. 词本身的特征:边界特征、词性、依存关系
  2. 前后缀特征:姓氏、地名
  3. 字本身的特征:是否是数字、是否是字符

例如:

可用的方法:

  1. HMM (隐马尔可夫模型)
  2. CRF (条件随机场)
  3. LSTM+CRF

方法效果比较:

参考文献:

  • hiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for
    Sequence Tagging. CoRR. 2015

  • Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer. Neural Architectures for Named Entity Recognition. The 2016 Conference of the North American Chapter of the Association for Computational Linguistics. 2016: 260-270

开源知识库:

2. 实体链接

开源系统:
【1】http://acube.di.unipi.it/tagme/
【2】https://github.com/parthatalukdar/junto
【3】http://orion.tw.rpi.edu/~zhengj3/wod/wikify.php
【4】https://github.com/yahoo/FEL
【5】https://github.com/yago-naga/aida
【6】http://www.nzdl.org/wikification/about.html
【7】http://aksw.org/Projects/AGDISTIS.html
【8】https://github.com/dalab/pboh-entity-linking


三、关系抽取

1. 什么是关系抽取?

  1. 信息抽取 (Information Extraction)研究领域的任务之一
  2. 从文本中抽取出两个或者多个实体之间的语义关系

2. 方法分类

  1. 基于模板的方法:基于触发词的Pattern、基于依存句法分析的Pattern
  1. 监督学习方法:机器学习方法、深度学习方法

机器学习:


深度学习:

  1. 弱监督学习方法:远程监督、Bootstrapping

参考文献:

  • Rink, Bryan, and S. Harabagiu. UTD: Classifying semantic relations by combining lexical and semantic resources. International Workshop on Semantic Evaluation Association for Computational Linguistics. 2010:256-259

  • Santos, Cicero Nogueira Dos, B. Xiang, and B. Zhou. Classifying Relations by Ranking with Convolutional Neural Networks. Computer Science. 2015:132-137

  • Linlin Wang, Zhu Cao, Gerard de Melo, Zhiyuan Liu. Relation Classification via Multi-Level Attention CNNs. Meeting of the Association for Computational Linguistics. 2016:1298-1307

  • Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016:207-212

  • Makoto Miwa, Mohit Bansa. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016

  • Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions. Proceedings of the Thirty-First Conference on Artificial Intelligence. 2017:3060-3066


四、事件抽取

事件是指发生的事情,通常具有时间、地点、参与者等属性,事件的发
生可能因为一个动作的产生或者系统状态的改变

事件抽取指的是从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与着等。

  • 事件描述 (Event Mention):描述事件的词组或句子
  • 事件触发 (Event Trigger):表明事件出现的主要词汇
  • 事件元素 (Event Argument):事件的重要信息
  • 元素角色 (Argument Role):元素在句子中的语义角色

事件抽取任务:

  • 识别事件触发词及事件类型
  • 抽取事件元素同时判断其角色
  • 抽出描述事件的词组或句子
  • 事件属性标注
  • 事件共指消解

1. 事件抽取的pipeline方法

2. 事件抽取的联合抽取方法

3. 基于深度学习的事件抽取方法

4. 扩充语料的方法

参考文献:

  • Ahn, D. (University of A. (2006). The stages of event extraction. ARTE ’06 Proceedings of the Workshop on Annotating and Reasoning about Time and Events, (July), 1–8. https://doi.org/10.3115/1629235.1629236

  • Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]// ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. DBLP, 2008:254-262.

  • Li Q, Ji H, Huang L. Joint Event Extraction via Structured Prediction with Global Features[C]// Meeting of the Association for Computational Linguistics. 2013:73- 82.

  • Li Q, Ji H. Incremental Joint Extraction of Entity Mentions and Relations[C]// Meeting of the Association for Computational Linguistics. 2014:402-412.

  • Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// The, Meeting of the Association for Computational Linguistics. 2015.

  • Liu S, Chen Y, He S, et al. Leveraging FrameNet to Improve Automatic Event Detection[C]// Meeting of the Association for Computational Linguistics. 2016:2134-2143.

  • Narasimhan CSAIL, K., Yala, A., & Barzilay, R. (2016). Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning. Emnlp, 2355–2365.

  • Chen, Y., Xu, L., Liu, K., Zeng, D., & Zhao, J. (2015). Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks. Proceedings ACL 2015, 167–176.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342