Retrieval Augmented Generation
检索增强生成
RAG 首次在 2020 发表的一篇名为 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks paper 中提出, 作者是 Patrick Lewis 和 meta AI 团队, 但是在 ChatGPT 发布后, RAG 才得到了广泛关注
时间线
- Transformer 2017.06
- RAG 2020.05
- ChatGPT 2022.11.30
LLM 局限性
对于实时的,非公开的或离线的数据是无法获取到的
hallucination
数据安全
RAG 是什么
一种通过 LLM 训练之外的数据来辅助 LLM 更准确回答的技术, 工程主导的技术
对大型语言模型输出进行优化, 使其能够在生成响应之前引用训练数据来源之外的权威知识库 -- aws
一种使用来自私有或专有数据源的信息来辅助文本生成的技术 -- elastic search
一种面向大语言模型的生成式 AI 方法, 通过将大语言模型链接到外部资源使生成式 AI 应用输出更准确的回答 -- redhat
Prompt
LLM 提示词, 是用于指导LLM生成文本的输入, 这些提示可以是问题,陈述,指令或任何形式的文本, 目的是让模型生成相关,连贯和有用的响应
{% for message in messages %}
{% if loop.first and messages[0]['role'] != 'system' %}
{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}
{% endif %}
{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}
{% endfor %}
{% if add_generation_prompt %}
{{ '<|im_start|>assistant\n' }}
{% endif %}"
RAG 流程
RAG 的工作流程主要包括两个核心步骤: 数据准备和应用执行, 通过从自有数据库检索相关信息, 并将这些信息融入到提示中, 引导 LLM 生成高质量的回答
-
数据准备
数据准备阶段是RAG(检索增强生成)应用流程中的首个关键步骤,它负责将原始数据转换为可用于检索和生成的结构化形式。这一阶段的目的是确保模型能够有效地访问和理解私有或定制化的数据集
-
数据提取
- 数据加载
从不同的源获取数据,这可能包括数据库、文档、网页、表格等多种格式。数据加载过程需要处理不同格式的兼容性,确保所有数据都能被统一处理
- 数据处理
对加载的数据进行清洗,包括去除无关信息(如HTML标签、无效字符)、数据去重、错误修正等,以提升数据质量
- 元数据获取
提取有助于理解和分类数据的关键信息,如文档标题、作者、创建日期等,这些元数据对于索引和检索非常有用
-
文本分割(Chunking)
- 粒度选择
根据应用场景和LLM的输入限制,决定文本的分割方式。常见的做法是按句子或固定长度的token(如256或512个tokens)分割,同时要确保分割后的块能保持语义完整性
- 策略应用
可以采用基于句子的分割,保持每个句意的独立性,或者采用固定长度分割,但需注意避免信息断层,可以通过在切分点前后添加冗余信息来缓解语义断裂问题
-
向量化(embedding)
- 模型选择
根据应用场景选择合适的嵌入模型,例如ChatGPT-Embedding、ERNIE-Embedding V1、M3E、BGE等,这些模型各有优劣,且部分模型支持微调以适应特定领域
- 向量生成
将分割好的文本块送入选定的嵌入模型,将其转化为高维向量。这一步骤至关重要,因为向量的质量直接影响后续的检索效率和精度
-
持久化
- 构建索引
将生成的向量存储到高效的向量数据库中,如FAISS、Chromadb、Milvus等。这些数据库通常支持快速的近似最近邻搜索
- 优化存储
考虑存储方案的优化,如是否需要存储元数据、如何组织索引以加速检索等。某些数据库还支持元数据过滤,允许按时间、来源等维度检索
-
应用执行
应用执行阶段是RAG(检索增强生成)工作流程的第二部分,主要负责接收用户输入、执行检索操作、整合信息并生成最终的回答
-
用户提问
- 接收输入
接收用户通过聊天界面、API调用或其他形式提交的问题或指令
-
数据检索(召回)
- 相似性检索
利用之前构建的向量索引,计算用户提问向量与数据库中所有向量的相似度,通常采用余弦相似性、欧氏距离等方法。返回最相关的几个结果TopK
- 全文检索
在某些情况下,也可能采用关键词匹配的方式,通过倒排索引快速定位相关文档
- 混合或融合搜索
结合语义搜索与关键词匹配,以获得更全面的检索结果
-
重排(reranking) 和过滤
- 优化检索结果
根据元数据、相似性分数、关键字等因素对检索结果进行重排,过滤掉不符合要求的条目,确保返回的信息最贴合用户需求
-
注入 Prompt
- 整合上下文
将检索到的相关信息整合到Prompt(提示词)中,形成一个包含了任务描述、背景知识和用户具体问题的综合输入
- 查询转换
在某些场景下,可能还会利用大语言模型(LLM)对原始用户提问进行改写或分解,生成更具体或更适合检索的子查询
在应用阶段,我们根据用户的提问,通过高效的检索方法,召回与提问最相关的知识,并融入Prompt;
大模型参考当前提问和相关知识,生成相应的答案。关键环节包括:数据检索、注入Prompt等。
-
LLM 生成答案
- 生成输出
将构造好的Prompt输入到大模型中,模型依据提供的上下文信息生成回答。这个过程融合了检索到的知识和模型自身的生成能力,以期提供精确、全面的答案
- 多轮对话管理
在聊天场景中,还需要考虑对话的连贯性,通过查询压缩技术和上下文管理机制,确保模型能够理解对话历史,生成符合上下文逻辑的回答
-
智能决策与路由
- 查询路由
对于复杂查询,系统可能需要通过LLM驱动的决策步骤,判断下一步行动,如是否需要进一步检索、调用特定功能或直接生成答案
- 智能体集成
在一些高级应用中,智能体(Agent)会参与到流程中,利用自身的推理能力执行特定任务,如执行代码、调用API或与其他智能体协作,以更动态、灵活的方式处理请求