命名实体识别1
本文章集合用于记录自然语言处理中的命名实体识别任务,从小白到毕设的全过程。仅用于学习交流。
一、什么是命名实体识别
- 命名实体(named entity)所谓的命名实体就是人名、机构名、地名以及其他所有
以名称为标识
的实体。更广泛的实体还包括数字、日期、货币、地址等等. - 命名实体识别由3个问题组成:
1.识别出文本中的命名实体;
2.确定该实体的类型;
3.对于多个实体表示同一事物时,选择其中的一个实体作为该组实体的代表。
二、资料参考
中文命名实体识别NER的原理、方法与工具 - 知乎 (zhihu.com)
注释:
- 3.NER思想
- 第一步:词实体标注
- 第二步:单个实体识别
- 第三步:复合实体识别
- 第一步:词实体标注方法
不同数据集可能采用不同实体标注方法,最常见的标注方法有IOB,BIOES
1.命名实体识别的三中标注方法BIO,BIOES,BMES-CSDN博客
2. 对BERT分词之后的文本序列进行BIO标注-CSDN博客
3.序列标注方法BIO、BIOSE、IOB、BILOU、BMEWO、BMEWO+的异同 - 知乎 (zhihu.com)
- tips: token是什么?
Token是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。即:令牌、标记、记号
三、命名实体识别方法
命名实体识别的发展过程概要如下:
早期是基于规则方法,接着是基于统计方法,然后是基于深度学习方法,到现在是基于Attention方法。