登录注册写文章

12. 如何评价RAG项目效果的好坏

12. 如何评价RAG项目效果的好坏

12.1 针对检索环节的评估

MRR 平均倒数排名：查询（或推荐请求）的排名倒数
- MRR是一种常用的评估信息检索系统表现的指标，尤其用于衡量搜索引擎、推荐系统等根据查询返回的多个结果中的相关性。
  ·- MRR衡量的是相关结果首次出现的位置（越靠前越好）。
- 适用于多结果排序任务，如搜索引擎查询、推荐系统等。
  
  MRR
Hits Rate命中率：前K项中，包含正确信息的项的数目占比
NDCG：
- 高关联度的结果比一般关联度的结果更影响最终的指标得分。
- 有高关联度的结果出现在更靠前的位置的时候，指标会越高。

12.2 针对生成环节的评估

非量化：完整性、正确性、相关性
量化：Rouge-L
- Rouge-L是一种用于评价文本生成质量的指标，通常在自动摘要、机器翻译和文本生成任务重使用。通过最长公共子序列来测量生成文本和参考文本之间的相似性。
由多喝专家分别生成人工摘要，构成标准摘要集，将系统生成的自动摘要与人工生成的标准摘要相对比，通过统计二者之间重叠地基本单元的数目，来评价摘要的质量。
召回率：参考文本中与生成文本匹配的最长公共子序列的长度，与参考文本的总长度之比。
精确率：生成文本中与参考文本匹配的最长公共子序列的长度，与生成文本的总长度之比。
由于Rouge-L注意最长公共子序列，在衡量文段的连贯性和句子顺序上具有优势。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

机器翻译与自动文摘评价指标 BLEU 和 ROUGE
在机器翻译任务中，BLEU 和 ROUGE 是两个常用的评价指标，BLEU 根据精确率(Precision)衡量翻...
Jarkata阅读 10,876评论 0赞 0
【论文阅读笔记】代码注释生成任务综述
Paper: A survey of automatic generation of source code co...
没啥信心阅读 8,103评论 0赞 0

机器翻译与自动文摘评价指标 BLEU 和 ROUGE
在机器翻译任务中，BLEU 和 ROUGE 是两个常用的评价指标，BLEU 根据精确率(Precision)衡量翻...
NLP与人工智能阅读 14,951评论 0赞 4
HELM：语言模型的整体评估（二）
前一节 HELM：语言模型的整体评估（一）https://www.jianshu.com/p/c2450fb362...
Valar_Morghulis阅读 4,676评论 0赞 0
文本生成-机器翻译评估指标及代码
BLEU-4 简介：BLEU-4（Bilingual Evaluation Understudy）：BLEU是一种...
魔法少女玛格姬阅读 6,125评论 0赞 2

赞1赞

赞赏

手机看全文