多标签分类的评价方法

基于排序的评价指标

TODO

2 基于分类的评价指标

2.1 document-pivoted binary

针对每个document来画混淆矩阵。
针对document来画: 若预测集合为PS,真实集合为GS,所有的label的集合为LS,则:

  • TP为预测为真(在PS中)的且预测正确(在GS中)的标签个数
  • FP为预测为真(在PS中)但是预测错误(不在GS)的标签个数
  • FN为预测为假(不在PS中)但是预测错误(在GS中)的标签个数
    则对单文档,precision(预测中正确的个数)即p=\frac{TP}{TP+TP}
    recall为(找出的正确的标签占总的gold的比例)r=\frac{TP}{TP+FN}
    之后可以使用Macro或者用Micro的对所有文档进行混合。Macro-averaging就是先算F1值,再进行平均。
    换一个思路, 若label空间维度为N,将对单文档的评价看作是对N个instance进行二元分类,此时混淆矩阵的计算的TP,FP,FN与之计算结果完全一致。也就是说Macro-F1对每个文档是权值相同的。
    若是将所有M个样本看作是M*N个instance的二分类,整体画混淆矩阵,计算的结果就是documnet-pivoted binary的Micro-F1 score。(Micro-F1是先把混淆矩阵对应位置元素加起来再计算F1,此时拥有标签更多的文档容易占据更多的权重)

2.2 label-pivoted binary

针对每个label来画混淆矩阵。
抽取标签为N_i的样本计算混淆矩阵。其中,gold为在所有M个样本中gold标签集中出现N_i的样本集合,predict为在M个样本中predict标签集中出现N_i的样本集合。
仿照上述,依此两个集合计算混淆矩阵的值。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。