什么是 RAG?
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索与大语言模型生成相结合的 AI 技术架构。它解决了大语言模型(LLM)的核心痛点:知识截止日期、幻觉问题和私域数据无法访问。
核心路径
用户提问
│
▼
向量化 ──────────────────────────────────────┐
│ │
▼ ▼
向量检索(语义) 关键词检索(BM25)
│ │
└──────────────┬──────────────────────────┘
│ 融合
▼
Reranking
│ 精排
▼
Top-K 文档块
│
▼
拼入 Prompt → LLM
│
▼
最终答案
RAG核心
1、Embedding(语义向量化)
Embedding 模型本质是一个编码器神经网络(通常基于 Transformer),将文本压缩成固定长度的向量
详解
2、 向量相似度检索
用什么度量衡量"相似"? → 相似度计算策略
几百万条数据怎么快速找到? → 近似最近邻(ANN)索引架构
详解
3、上下文注入
前面几步已经完成了检索,拿到了相关文档。但 LLM 并不会自动"知道"这些文档的内容。上下文注入就是把检索到的文档"喂"给 LLM 的过程。
详解
RAG 的核心需求就一句话:把一段文字,变成一串数字(向量),使得"意思相近的文字,数字也相近"