信息抽取(IE)工具总结

信息抽取(information extraction)
  • 是从自然语言文本中抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物。
开放信息抽取(open IE)
  • 是指从纯文本中提取结构化关系三元组,例如(Mark Zuckerberg; founded; Facebook)。与其他信息提取的核心区别在于,这些关系的模式不需要事先指定; 通常,关系名称只是链接两个参数的文本。例如,Barack Obama was born in Hawaii 将会创建一个三元组 (Barack Obama; was born in; Hawaii), 对应于开放域的关系为 was-born-in(Barack-Obama, Hawaii)。
下面做一个信息抽取工具及相关资料的总结
一、Stanford CoreNLP
  • 基本思想:Stanford CoreNLP提供了一套人类语言技术工具。
    它可以给出单词的基本形式,它们的词性,它们是公司名称,人物等等,标准化日期,时间和数字量,用短语和句法依赖关系标记句子结构,指示其中名词短语指的是相同的实体,表示情感,提取实体提及之间的特定或开放式关系。
  • 相关论文:The Stanford CoreNLP Natural Language Processing Toolkit
二、Stanford OpenIE
  • 基本思想:利用语言结构进行开放域信息提取。
    系统首先将每个句子分成一组必要条款。然后最大限度地缩短每个子句,产生一组较短的句子片段。然后将这些片段分段为OpenIE三元组,并由系统输出。
  • 相关论文:A Survey on Open Information Extraction
  • 注:斯坦福OpenIE是一部分斯坦福CoreNLP
三、Deepdive
  • Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 。
  • 学习教程地址:http://deepdive.stanford.edu/quickstart
四、MinIE
五、ClausIE
六、ReVerb
  • ReVerb是一个自动识别和提取英语句子中的二元关系的程序。ReVerb专为Web规模信息提取而设计。
  • 代码地址:https://github.com/knowitall/reverb
七、Ollie
八、IEPY
九、Stanford-OpenIE-Python
以上是目前收集到的信息抽取工具的整理,后续有新的会继续补充
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。