内容来自哈工大车万翔老师团队的作品《自然语言处理:基于预训练模型的方法》。
2.4 评价指标
-
准确率
-
F值
精确率(Precision)和召回率(Recall)的加权调和平均
β是加权调和参数;P 是精确率;R是召回率。当β=1时,即精确率和召回率的权重相同
-
F1值
BLUE值
BLEU值是最常用的机器翻译自动评价指标,其计算方法是统计机器译文与参考译文(可以不止一个)中 N-gram 匹配的数目占机器译文中所有 N-gram 总数的比率,即N-gram的精确率人机系统
人机对话系统的评价方法仍是目前自然语言处理领域一个非常棘手的开放性问题,并没有很好地被解决。