12. 如何评价RAG项目效果的好坏

12.1 针对检索环节的评估

  • MRR 平均倒数排名:查询(或推荐请求)的排名倒数

    • MRR是一种常用的评估信息检索系统表现的指标,尤其用于衡量搜索引擎、推荐系统等根据查询返回的多个结果中的相关性。
      ·- MRR衡量的是相关结果首次出现的位置(越靠前越好)。
    • 适用于多结果排序任务,如搜索引擎查询、推荐系统等。


      MRR
  • Hits Rate命中率:前K项中,包含正确信息的项的数目占比

  • NDCG:

    • 高关联度的结果比一般关联度的结果更影响最终的指标得分。
    • 有高关联度的结果出现在更靠前的位置的时候,指标会越高。

12.2 针对生成环节的评估

  • 非量化:完整性、正确性、相关性
  • 量化:Rouge-L
    • Rouge-L是一种用于评价文本生成质量的指标,通常在自动摘要、机器翻译和文本生成任务重使用。通过最长公共子序列来测量生成文本和参考文本之间的相似性。
  • 由多喝专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠地基本单元的数目,来评价摘要的质量。
  • 召回率:参考文本中与生成文本匹配的最长公共子序列的长度,与参考文本的总长度之比。
  • 精确率:生成文本中与参考文本匹配的最长公共子序列的长度,与生成文本的总长度之比。
  • 由于Rouge-L注意最长公共子序列,在衡量文段的连贯性和句子顺序上具有优势。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容