2020-06-02

NER命名实体识别

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。

实体识别方法的发展史

NER的关键:在进行实体识别的过程中,有两个问题是十分关键的:实体边界的确认;实体类别的判断

所谓实体边界的确认,指的是对一个句子中的实体词进行正确的划分,例如在句子“黄黄被清华大学录取”中,一个好的识别算法必须将实体词“黄黄”进行正确的标记,而不是在其它的位置进行划分;所谓实体类别的判断,仍以上例说明,算法必须判定“黄黄”为人名实体,而不是其它类型的实体。

标记对于实体边界确认的重要性不言而喻,通常的方法有B-I-O,但是这种方法实体的末尾字不容易得到区分;另一种相对复杂的表示方法为B-M-E-S-O,B表示begin,M表示middle,E表示end,S表示实体只有一个字时的标记single,O表示other非实体字

目前比较主流的方法是 lstm+crf及其变体

接下来要深入研究的是 embedding  crf lstm

以下为参考文章:

https://blog.csdn.net/SunJW_2017/article/details/82460284

http://blog.itpub.net/69946223/viewspace-2657672/

https://zhuanlan.zhihu.com/p/61227299

https://blog.csdn.net/SunJW_2017/article/details/82494360

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容