定义
RAG(Retrieval Augmented Generation),是指通过检索的方法来增强生成的模型架构。
背景
为什么要用 RAG,因为 LLM 的知识存在固有缺陷:
- 知识不新:由于训练的时间和成本,大模型的知识往往是旧的,如 GPT-4 Turbo 的知识库截至时间是2023年4月
- 知识不全:缺少专业的领域知识或私有的业务知识
实现
RAG 的本质就是检索 + 生成。
使用 Assistants API
OpenAI 在第一届 DevDay 推出的 Assistants API 内置了 RAG 功能,我们有必要先来了解一下:
- 自动选择两种检索策略:
1)针对小文件直接把文件内容添加到 Prompt 中
2)对于大文件会通过向量检索 - 支持文件最大 512M,格式包括.pdf, .md, .docx等
下面是简单的实现代码:
client = openai.OpenAI()
# 上传文件
file = client.files.create(
file=open("llama2.pdf", "rb"),
purpose='assistants'
)
# 创建 Assistant
assistant = client.beta.assistants.create(
instructions="你是个问答机器人,你根据给定的知识回答用户问题。",
model="gpt-4-1106-preview",
tools=[{"type": "retrieval"}],
file_ids=[file.id]
)
# 创建 Thread
thread = client.beta.threads.create()
# 创建 User Message
message = client.beta.threads.messages.create(
thread_id=thread.id,
role="user",
content="Llama 2有多少参数"
)
# 创建 Run 实例,同时给 Assistant 提供指令
run = client.beta.threads.runs.create(
thread_id=thread.id,
assistant_id=assistant.id,
instructions="请用中文回答用户的问题。",
)
# 等待 Run 完成
while run.status != "completed":
run = client.beta.threads.runs.retrieve(
thread_id=thread.id,
run_id=run.id
)
# 获取 Run 的结果
messages = client.beta.threads.messages.list(
thread_id=thread.id
)
# 打印结果
for turn in reversed(messages.data):
print(f"{turn.role.upper()}: "+turn.content[0].text.value)
可以看出,使用 Assistants API 实现 RAG 非常简单和方便,但是使用 Assistants API 也存在着一些局限:
- 安全:我们的一些私有的业务知识不适合也不允许上传给 OpenAI
- 成本:使用过程中所有的 token 都是要收费的
- 能力:除了文件大小限制、国内访问限制等,通用服务都是黑盒子,可能无法实现个性化的定制需求
所以,我们还是有必要学习和了解 RAG 的实现原理以及 RAG 系统的自主搭建。