简称:NER:目标是识别所有文字提及的命名实体。可以分成两个子任务:确定NE的边界和确定其类型。
提取工具:
1、NLTK提供了一个已经训练好的可以识别命名实体的分类器
http://www.cnblogs.com/createMoMo/archive/2013/05/30/3109464.html
2、基于哈工的LTP,可以安装pyltp模型,用python调用使用
pyltp官方教程 http://pyltp.readthedocs.io/zh_CN/latest/index.html
超赞实例教程: http://blog.csdn.net/MebiuW/article/details/52496920 <代码>
该教程包括分词、词性标注、命名实体识别、依存句法分词、语义角色标注
3、可以基于CRF++的工具包来提(可工业级使用)
http://blog.sina.com.cn/s/blog_618985870101hvuf.html (介绍)
https://pan.baidu.com/s/1geHjeCj (CRF++安装包)
4、基于双向LSTM和迁移学习的seq2seq核心实体识别:http://kexue.fm/archives/3942/
5、用深度学习做NER,参考:http://www.jianshu.com/p/581832f2c458
6、现在在深度学习背景下的流行做法是基于 Bi-driectional LSTM + linear-chain CRF 的模型结构。该模型以character为基本粒度 (在这里,英文的 character 指的是单词的一个字符,中文的 character 指的是单个汉字) 去自动提取特征从而大大降低工作量 [1-6]。 http://mp.weixin.qq.com/s/W0MO4k3IDect9aOSzu7-Zg <附带代码>
博客参考链接:
1、 http://blog.csdn.net/lalalawxt/article/details/55804384
2、 http://www.cnblogs.com/webRobot/p/6086693.html
3、 http://blog.csdn.net/u010718606/article/details/50148261
命名实体识别部分(NER)
model的选择: Bi-LSTM-CNN-CRF > Bi-LSTM-CRF > CRF
问:如何做实体label标注吗?就是抽取的实体,想标注类别(比如说医学的疾病类,症状类等)
答:这是一个多分类问题,
、