12.1 针对检索环节的评估
-
MRR 平均倒数排名:查询(或推荐请求)的排名倒数
- MRR是一种常用的评估信息检索系统表现的指标,尤其用于衡量搜索引擎、推荐系统等根据查询返回的多个结果中的相关性。
·- MRR衡量的是相关结果首次出现的位置(越靠前越好)。 -
适用于多结果排序任务,如搜索引擎查询、推荐系统等。
MRR
- MRR是一种常用的评估信息检索系统表现的指标,尤其用于衡量搜索引擎、推荐系统等根据查询返回的多个结果中的相关性。
Hits Rate命中率:前K项中,包含正确信息的项的数目占比
-
NDCG:
- 高关联度的结果比一般关联度的结果更影响最终的指标得分。
- 有高关联度的结果出现在更靠前的位置的时候,指标会越高。
12.2 针对生成环节的评估
- 非量化:完整性、正确性、相关性
- 量化:Rouge-L
- Rouge-L是一种用于评价文本生成质量的指标,通常在自动摘要、机器翻译和文本生成任务重使用。通过最长公共子序列来测量生成文本和参考文本之间的相似性。
- 由多喝专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠地基本单元的数目,来评价摘要的质量。
- 召回率:参考文本中与生成文本匹配的最长公共子序列的长度,与参考文本的总长度之比。
- 精确率:生成文本中与参考文本匹配的最长公共子序列的长度,与生成文本的总长度之比。
- 由于Rouge-L注意最长公共子序列,在衡量文段的连贯性和句子顺序上具有优势。
