基于博文 Advanced RAG Techniques: an Illustrated Overview 的学习和练习的记录。
中文内容可以查看博主@宝玉的译文 高级 RAG 技术:图解概览 [译]
系列笔记:
RAG 学习笔记(一)
RAG 学习笔记(二)
RAG 学习笔记(三)
RAG 学习笔记(四)
RAG 学习笔记(五)
RAG 学习笔记(六)
RAG 学习笔记(七)
RAG 学习笔记(八)
性能评估
Ragas 评估框架
Ragas 框架中的评估指标分为两类
- 评估答案生成效果的指标:
- 忠实程度(Faithfulness):生成的答案与给定上下文的一致程度
- 回答的相关度(Answer relevancy):生成的答案与问题的相关程度
- 评估检索效果的指标:
- 上下文准确率(Context precision):检索结果是否准确
- 上下文召回率(Context recall):该出现的结果是否检索到了
- 上下文相关度(Context relevancy):检索的内容与问题的相关程度(和文档分割策略相关)
Truelens 评估框架
Truelens 框架 介绍了 RAG 三元组:
- 上下文相关度(context relevance):检索的内容与问题的相关程度
- 依据性(groundedness):回答内容基于给定上下文的程度
- 回答相关度(answer relevance):生成的答案与问题的相关程度
其他指标
OpenAI cookbook 中演示的指标:
- 命中率(hit rate)
- 平均倒数 排名(Mean Reciprocal Rank):常见的搜索引擎指标
与高级 RAG pipeline 的关系
- 第 1-7 部分、Encoder 和 Ranker 微调部分,都为了提高检索的相关度
- 第 8 部分、LLM 微调部分,都为了提高回答内容的相关度和依据性(groundedness)。
图片中涉及的内容:请看系列笔记(二)到(七)
资源
- 吴恩达课程:构建并评估高级 RAG
- 简单实现检索器评估 pipeline,并对微调的 Encoder 效果进行评估
- LangChain 评估框架 LangSmith:可以监控 RAG 管道内运行的情况,使系统更加透明。
- LlamaIndex 生态中的评估工具包:RAG Evaluation Pack,提供工具和相关开放数据集。
结语
除了之前介绍到的内容外,还有其他的技术:
- 基于网络搜索的 RAG,比如:LlamaIndex 的 RAGs、weblangchain
- 深入 Agent 架构,比如 OpenAI 在 Agent 这项技术的“押注”
- 关于 LLM 长期记忆的讨论
生产中 RAG 的挑战除了检索效果和回答效果外,就是运行速度了。因此 Mixtral 和 Phi-2 这类小模型是比较有前景的。
完结撒花 ✿✿ヽ(°▽°)ノ✿