NLP度量metric

  • 准确率、召回率
    阅读以下材料,可以知道准确率和召回率主要是分母不同,分子都是猜对的数目,准确率的分母是总共猜的数目,召回率的分母是系统中总共对的数目。召回率提升的时候,需要我们用比较多的猜的次数才可以猜对剩下的,这是基于越来越难猜的假设。
在一个数据库中有1000个文档,其中有100个是与美食相关的,系统检索出75个文档,其中,只有50个是与美食相关的,这时候:

准确率 = 50 / 75 = 67%

召回率 = 50 / 100 = 50%

上面的检索为第一次检索,同样的环境下改变检索技术后进行第二次检索,系统检索出150个文档,其中,90个是与美食相关的,此时:

准确率 = 90 / 150 = 60%

召回率 = 90 / 100 = 90%

总结:通过上面两次检索,喜欢思考的读者不难发现,随着召回率的提高,准确率在下降。

研究表明:在不牺牲准确率的前提下,要获得一个高的召回率是比较困难的。
  • BLEU
    首先来看不好的精度计算
    下面的例子中,虽然翻译的很烂,猜测的句子一共有7个单词,都是the,依次遍历the,发现都在答案中,所以这里精度计算为7/7=100%。第二种计算,对于同样的单词只计算一次,虽然猜测的句子有7个the,但我们只算一次,分子是参考的句子中最多出现该单词的次数,第一个句子出现the两次,第二个句子出现一次,所以分子是2,the在猜测的句子中出现7次,所以the这个单词的得分是2/7



    基于二元模型的BLEU
    长为N个单词的句子最多有N-1个二元单词,分母是猜测的句子中二元词汇出现的总次数,左边一排就是,分子以the cat为例,首先the cat是猜测的句子中的词汇,我们在第一个答案中找到the cat的次数为1,第二个答案中找到the cat的次数为1,两者取max,为1。然后把所有词汇次数都加起来,得到总次数。



    总结公式:

    多个i元模型平均后求指数,然后在前面乘以BP来对断句进行惩罚,因为短句不容易犯错。
  • Rouge(Recall-Oriented Understudy for Gisting Evaluation)
    这个度量主要用在主旨、总结上
    参考资料:
    《ROUGE : A Package for Automatic Evaluation of Summaries》
    What Is ROUGE And How It Works For Evaluation Of Summarization Tasks?

ROUGE-N:N-gram Co-Occurrence Statistics
N是某一个具体的值
总结可能有多个,对于每个,分母计算所有的n-gram个数,分子为共现的n-gram个数。the maximum number of n-grams co-occurring in a candidate summary and a set of reference summaries.



因为分母来自正确答案,所以这是一个召回类似的度量。
Therefore a candidate summary that contains words shared by more references is favored by the ROUGE-N measure.

ROUGE-L:LCS

ROUGE-S:可以有任何间隔的词对

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容