大模型 RAG工作流程

概述

跟Function calling一样，RAG的出现也是因为大模型无法完全满足实际业务需求，主要有以下几方面原因：

知识的局限性：模型自身的知识完全源于它的训练数据，而现有的主流大模型的训练集基本都是构建于网络公开的数据，对于一些实时性的、非公开的或离线的数据是无法获取到的，这部分知识也就无从具备。
幻觉问题：所有的AI模型的底层原理都是基于数学概率，其模型输出实质上是一系列数值运算，大模型也不例外，所以它有时候会一本正经地胡说八道，尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的，因为它要求使用者自身具备相应领域的知识。
数据安全性：对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。

而RAG是解决上述问题的一套有效方案，前段时间参考一个开源的RAG项目，研究了一下RAG的工作流程，简单记录如下：
本文主要介绍一下RAG（Retrieval-Augmented Generation）的工作流程，包括根据数据类型创建文档加载器、对加载的文档进行分割、将分割后的文档向量化存储到向量数据库、根据用户问题查找相关向量并还原成原始文本发送给 LLM 以获取答案。

关键要点包括：

文档加载：根据数据类型创建不同的 Loader，返回文档对象。

文档分割：因数据量大需分割成块后存储。

向量存储：文档块经嵌入操作转换成向量存储在向量数据库。

向量查找：用户问题转换成向量与数据库中的向量比较，找出相关的 n 个向量。

答案生成：相关向量还原成文本发送给 LLM 生成答案。

整体流程如下：

RAG工作流程.png

文件加载分割

需要根据数据类型创建不同类型的文档加载器Loader，加载完外部数据以后会返回一个文档对象；
当数据被加载以后，接下来就来到了文档分割(Splitting)的环节，由于外部数据量可能比较大，如pdf、text、md文档等产生的文档数量或体量比较大，因此需要对外部数据文档进行分割(Splitting)成块(chunks)；

文档加载分割.png

代码简单实现如下：

docs = ReadDataFiles('./data').get_content(max_token_len=450, cover_content=50)

向量存储

向量存储是指被分割的文档需要先经过向量化操作然后存储到向量数据库的过程，因为大语言模型(LLM)无法理解文字信息(只能理解数字)，因此必须对文字信息进行编码，这里编码指的是只嵌入(Embeddings)，嵌入操作可以将文本转换成数字编码并以向量的形式存储在向量数据库中，如下图所示：

向量化存储.png

代码简单实现如下：

vector = VectorStore(docs)
# 创建EmbeddingModel
embedding = DashscopeEmbedding()
vector.get_vector(EmbeddingModel=embedding)
# 将向量化数据和文档内容切片存储到storage目录下，使用时可以直接加载本地的数据库
vector.persist(path='storage')

向量查找

当文档被分割成块(chunks)后，每一个块都会经嵌入(Embedding)操作后转换成向量并存储在向量数据库中，当用户对文档内容提出问题时，用户的问题也会经嵌入操作后被转换成向量并与向量数据库中的所有向量做相似度比较，最后找出与问题最相关的n个向量，如下图所示：

向量匹配.png

当找到与用户问题最相关的n个向量以后，这些向量会被还原成原始文本；
代码简单实现如下：

content = vector.query(question, EmbeddingModel=embedding, k=3)

然后将用户的问题和这些文本信息发送给LLM，LLM会针对用户的问题对这些文本内容做提炼和汇总，最后给出正确合理的答案。
代码简单实现如下：

summary = DashscopeSummary()
answer = summary.summary(question, content)
PROMPT_TEMPLATE = """使用以上下文来回答询问的问题。如果你不知道答案，就说你不知道。总是使用中文回答。
        问题: {question}
        可参考的上下文：
        ···
        {context}
        ···
        如果给定的上下文中没有匹配的内容无，则输出“抱歉，您可以换一个问题”。
        有用的回答:"""
msg = [{'role': 'user', 'content': PROMPT_TEMPLATE.format(question=question, context=content)}]

实战

根据RAG的工作流程，简单的做了一个尝试，以Android11.0最新Framework解析.pdf作为知识库，进行问题查询，效果如下：

实战.png

本文主要是对RAG的工作流程做了个简单的介绍，持续学习中，后续有新的收获再进行更新...