定义

RAG（Retrieval Augmented Generation），是指通过检索的方法来增强生成的模型架构。

背景

为什么要用 RAG，因为 LLM 的知识存在固有缺陷：

知识不新：由于训练的时间和成本，大模型的知识往往是旧的，如 GPT-4 Turbo 的知识库截至时间是2023年4月
知识不全：缺少专业的领域知识或私有的业务知识

实现

RAG 的本质就是检索 + 生成。

使用 Assistants API

OpenAI 在第一届 DevDay 推出的 Assistants API 内置了 RAG 功能，我们有必要先来了解一下：

自动选择两种检索策略：
1）针对小文件直接把文件内容添加到 Prompt 中
2）对于大文件会通过向量检索
支持文件最大 512M，格式包括.pdf, .md, .docx等

下面是简单的实现代码：

client = openai.OpenAI()

# 上传文件
file = client.files.create(
    file=open("llama2.pdf", "rb"),
    purpose='assistants'
)

# 创建 Assistant
assistant = client.beta.assistants.create(
    instructions="你是个问答机器人，你根据给定的知识回答用户问题。",
    model="gpt-4-1106-preview",
    tools=[{"type": "retrieval"}],
    file_ids=[file.id]
)

# 创建 Thread
thread = client.beta.threads.create()

# 创建 User Message
message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="Llama 2有多少参数"
)

# 创建 Run 实例，同时给 Assistant 提供指令
run = client.beta.threads.runs.create(
    thread_id=thread.id,
    assistant_id=assistant.id,
    instructions="请用中文回答用户的问题。",
)

# 等待 Run 完成
while run.status != "completed":
    run = client.beta.threads.runs.retrieve(
        thread_id=thread.id,
        run_id=run.id
    )

# 获取 Run 的结果
messages = client.beta.threads.messages.list(
    thread_id=thread.id
)

# 打印结果
for turn in reversed(messages.data):
    print(f"{turn.role.upper()}: "+turn.content[0].text.value)

可以看出，使用 Assistants API 实现 RAG 非常简单和方便，但是使用 Assistants API 也存在着一些局限：

安全：我们的一些私有的业务知识不适合也不允许上传给 OpenAI
成本：使用过程中所有的 token 都是要收费的
能力：除了文件大小限制、国内访问限制等，通用服务都是黑盒子，可能无法实现个性化的定制需求

所以，我们还是有必要学习和了解 RAG 的实现原理以及 RAG 系统的自主搭建。

【AI大模型】RAG和Embeddings

【AI大模型】RAG和Embeddings

定义

背景

实现

使用 Assistants API

推荐阅读更多精彩内容