简介
命名实体识别评测方式分为两种,一是通用的基于token标签进行直接评测,二是考虑实体边界+实体类型的评测。
标签评测
不考虑实体类型与实体边界,直接进行评测。
实体边界+实体类型
A、完全匹配
1、实体边界与实体类型都匹配正确;
2、预测出的实体在测试集中不存在;
3、测试集中的实体,没有被预测出来;
B、部分匹配(重叠)
4、实体边界正确,类型不正确;
5、边界错误(边界重叠);
6、边界错误,实体类型也错误
评估指标
1、CoNLL-2003: Computational Natural Language Learning
- 仅考虑1、2、3方案;
- 完全匹配:精度、召回率、F1
- 参考 Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition:https://www.aclweb.org/anthology/W03-0419/
2、Automatic Content Extraction (ACE)
- 包括加权方案
- 参考 Automatic Content Extraction 2008 Evaluation Plan (ACE08):
https://pubweb.eng.utah.edu/~cs6961/papers/ACE-2008-description.pdf
- 参考 The Automatic Content Extraction (ACE) Program: Tasks, Data, and Evaluation:
https://pdfs.semanticscholar.org/0617/dd6924df7a3491c299772b70e90507b195dc.pdf
3、Message Understanding Conference (MUC)
- 同事考虑实体边界和实体类型
- Correct (COR): 匹配成功;
- Incorrect(INC):匹配失败;
- Partial(PAR):预测的实体边界与测试集重叠,但不完全相同;
- Missing(MIS):测试集实体边界没有被预测识别出来;
- Spurius(SPU):预测出的实体边界在测试集中不存在;
- 参考:MUC-5 EVALUATION METRICS:https://www.aclweb.org/anthology/M93-1007/
- Python参考代码:https://github.com/jantrienes/nereval
4、SemEval‘13
- 严格(strict):完全匹配,需要实体边界与实体类型都正确;
- 精确边界匹配(exact):无论实体边界如何,预测的实体边界都是正确的;
- 部分边界匹配(partial):忽略实体边界,有实体边界重叠即可;
- 类型匹配:预测的实体与测试集实体需要一定的重叠;
示例:
1、测试集标签个数统计(golden):
2、预测结果标签个数统计(predict):
3、精确匹配(exact):
3、部分匹配(partial):
4、F1:
参考资料:
1、实体边界+实体类型:
https://ychai.uk/notes/2018/11/21/NLP/NER/Evaluation-metrics-of-Name-Entity-Recognition-systems/
2、scikit-learn标签评测(多分类评测方法):
https://devdocs.io/scikit_learn/modules/generated/sklearn.metrics.classification_report
3、conlleval参考代码:
https://github.com/sighsmile/conlleval
4、NER MUC evaluation参考代码:
https://github.com/cyk1337/NER-evaluation/