登录注册写文章

信息抽取（IE）工具总结

信息抽取（IE）工具总结

信息抽取（information extraction）

是从自然语言文本中抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）。例如从新闻中抽取时间、地点、关键人物。

开放信息抽取（open IE）

是指从纯文本中提取结构化关系三元组，例如（Mark Zuckerberg; founded; Facebook）。与其他信息提取的核心区别在于，这些关系的模式不需要事先指定; 通常，关系名称只是链接两个参数的文本。例如，Barack Obama was born in Hawaii 将会创建一个三元组 (Barack Obama; was born in; Hawaii), 对应于开放域的关系为 was-born-in(Barack-Obama, Hawaii)。

下面做一个信息抽取工具及相关资料的总结

一、Stanford CoreNLP

基本思想：Stanford CoreNLP提供了一套人类语言技术工具。
它可以给出单词的基本形式，它们的词性，它们是公司名称，人物等等，标准化日期，时间和数字量，用短语和句法依赖关系标记句子结构，指示其中名词短语指的是相同的实体，表示情感，提取实体提及之间的特定或开放式关系。
相关论文：The Stanford CoreNLP Natural Language Processing Toolkit

二、Stanford OpenIE

基本思想：利用语言结构进行开放域信息提取。
系统首先将每个句子分成一组必要条款。然后最大限度地缩短每个子句，产生一组较短的句子片段。然后将这些片段分段为OpenIE三元组，并由系统输出。
相关论文：A Survey on Open Information Extraction
注：斯坦福OpenIE是一部分斯坦福CoreNLP

三、Deepdive

Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习，从非结构化的文本中抽取结构化的关系数据。
学习教程地址：http://deepdive.stanford.edu/quickstart

四、MinIE

相关论文：MinIE: Minimizing Facts in Open Information Extraction

五、ClausIE

相关论文：CESI: Canonical-izing Open Knowledge Bases using Embeddings and Side Information

六、ReVerb

ReVerb是一个自动识别和提取英语句子中的二元关系的程序。ReVerb专为Web规模信息提取而设计。
代码地址：https://github.com/knowitall/reverb

七、Ollie

Ollie是一种自动识别和提取英语句子中的二元关系的软件。Ollie专为信息提取而设计。
代码地址：https://github.com/knowitall/ollie
相关论文：Open Language Learning for Information Extraction

八、IEPY

IEPY是一个专注于关系提取的信息提取的开源工具。
代码地址：http://github.com/machinalis/iepy

九、Stanford-OpenIE-Python

Stanford Open Information Extraction - Python Wrapper
学习教程地址：https://github.com/philipperemy/Stanford-OpenIE-Python)

以上是目前收集到的信息抽取工具的整理，后续有新的会继续补充

最后编辑于：2019.04.17 12:49:44

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

6赞7赞

赞赏

手机看全文