一、知识抽取任务定义和相关比赛
1. 知识抽取
从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。
2. 知识抽取的子任务:
- 命名实体识别 (Named Entity Recognition, NER)
术语抽取
从语料中发现多个单词组成的相关术语关系抽取
王思聪是万达集团董事长王健林的独子。——> [王健林] <父子关系> [王思聪]事件抽取
- 共指消解(Co-reference Resolution, CR)
3. 相关比赛:
Message Understanding Conference (MUC):由美国DARPA启动并资助的项目,目的是鼓励和开发更好的信息抽取方法
地址:https://en.wikipedia.org/wiki/Message_Understanding_ConferenceAutomatic Content Extraction (ACE):ACE对MUC定义的任务进行了融合、分类和细化; 主要分为五大任务,包含英语、阿拉伯语和汉语
TAC Knowledge Base Population (KBP):KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求主要分为四个独立任务和一个整合任务
地址:https://tac.nist.gov/2017/KBP/Semantic Evaluation(SemEval):由ACL-SIGLEX组织的国际权威的词义消歧评测,目标是增进人们对词义与多义现象的理解
地址:https://en.wikipedia.org/wiki/SemEval
二、实体抽取和实体链接
1. 实体抽取
实体抽取是抽取文本中的原子信息元素,例如:
- 人名
- 组织/机构名
- 地理位置
- 时间/日期
- 字符值
- 金额值
实体抽取举例:
实体抽取其实可以看出是序列标注的问题。
在传统方法中,常常会涉及很多人工特征,例如:
- 词本身的特征:边界特征、词性、依存关系
- 前后缀特征:姓氏、地名
- 字本身的特征:是否是数字、是否是字符
例如:
可用的方法:
- HMM (隐马尔可夫模型)
- CRF (条件随机场)
- LSTM+CRF
方法效果比较:
参考文献:
hiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for
Sequence Tagging. CoRR. 2015Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer. Neural Architectures for Named Entity Recognition. The 2016 Conference of the North American Chapter of the Association for Computational Linguistics. 2016: 260-270
开源知识库:
2. 实体链接
开源系统:
【1】http://acube.di.unipi.it/tagme/
【2】https://github.com/parthatalukdar/junto
【3】http://orion.tw.rpi.edu/~zhengj3/wod/wikify.php
【4】https://github.com/yahoo/FEL
【5】https://github.com/yago-naga/aida
【6】http://www.nzdl.org/wikification/about.html
【7】http://aksw.org/Projects/AGDISTIS.html
【8】https://github.com/dalab/pboh-entity-linking
三、关系抽取
1. 什么是关系抽取?
- 信息抽取 (Information Extraction)研究领域的任务之一
- 从文本中抽取出两个或者多个实体之间的语义关系
2. 方法分类
- 基于模板的方法:基于触发词的Pattern、基于依存句法分析的Pattern
- 监督学习方法:机器学习方法、深度学习方法
机器学习:
深度学习:
- 弱监督学习方法:远程监督、Bootstrapping
参考文献:
Rink, Bryan, and S. Harabagiu. UTD: Classifying semantic relations by combining lexical and semantic resources. International Workshop on Semantic Evaluation Association for Computational Linguistics. 2010:256-259
Santos, Cicero Nogueira Dos, B. Xiang, and B. Zhou. Classifying Relations by Ranking with Convolutional Neural Networks. Computer Science. 2015:132-137
Linlin Wang, Zhu Cao, Gerard de Melo, Zhiyuan Liu. Relation Classification via Multi-Level Attention CNNs. Meeting of the Association for Computational Linguistics. 2016:1298-1307
Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016:207-212
Makoto Miwa, Mohit Bansa. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016
Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions. Proceedings of the Thirty-First Conference on Artificial Intelligence. 2017:3060-3066
四、事件抽取
事件是指发生的事情,通常具有时间、地点、参与者等属性,事件的发
生可能因为一个动作的产生或者系统状态的改变
事件抽取指的是从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与着等。
- 事件描述 (Event Mention):描述事件的词组或句子
- 事件触发 (Event Trigger):表明事件出现的主要词汇
- 事件元素 (Event Argument):事件的重要信息
- 元素角色 (Argument Role):元素在句子中的语义角色
事件抽取任务:
- 识别事件触发词及事件类型
- 抽取事件元素同时判断其角色
- 抽出描述事件的词组或句子
- 事件属性标注
- 事件共指消解
1. 事件抽取的pipeline方法
2. 事件抽取的联合抽取方法
3. 基于深度学习的事件抽取方法
4. 扩充语料的方法
参考文献:
Ahn, D. (University of A. (2006). The stages of event extraction. ARTE ’06 Proceedings of the Workshop on Annotating and Reasoning about Time and Events, (July), 1–8. https://doi.org/10.3115/1629235.1629236
Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]// ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. DBLP, 2008:254-262.
Li Q, Ji H, Huang L. Joint Event Extraction via Structured Prediction with Global Features[C]// Meeting of the Association for Computational Linguistics. 2013:73- 82.
Li Q, Ji H. Incremental Joint Extraction of Entity Mentions and Relations[C]// Meeting of the Association for Computational Linguistics. 2014:402-412.
Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// The, Meeting of the Association for Computational Linguistics. 2015.
Liu S, Chen Y, He S, et al. Leveraging FrameNet to Improve Automatic Event Detection[C]// Meeting of the Association for Computational Linguistics. 2016:2134-2143.
Narasimhan CSAIL, K., Yala, A., & Barzilay, R. (2016). Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning. Emnlp, 2355–2365.
Chen, Y., Xu, L., Liu, K., Zeng, D., & Zhao, J. (2015). Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks. Proceedings ACL 2015, 167–176.