(本文编译自 Lilian Weng 的个人博客)
OpenAI 的联合创始人 Andrej Karpathy 在近期的一次公开活动上提到“相比模型训练方法,OpenAI 内部目前更关注 Agent 领域的变化,每当有新的 AI Agents 论文出来的时候,内部都会很兴奋并且认真地讨论”,而在更早之前,Andrej 还评价 AutoGPT 是 Prompt Engineering 下一阶段的探索方向。
Lilian Weng 的这篇 Blog 可以说是目前 AI Agent 领域优质论文的系统综述,她将 Agents 定义为 LLM、记忆(Memory)、任务规划(Planning Skills)以及工具使用(Tool Use) 的集合,其中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件。
在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建 AI Agent 的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及 LLM 能力的稳定性等。
从今年 3 月 AutoGPT 推出后,Generative Agent、GPT-Engineer、BabyAGI 项目的爆发将 LLM 地叙事代入了新的阶段,从“超级大脑”到真正有可能成为Lillian 在自己的 Twitter 中也认为“This is probably just a new era”。
Agent System 是什么?
在以 LLM 为驱动的 AI Agents 系统中,LLM 是代理系统的“大脑”,并需要其他几个关键组件的辅助:
1. 规划(Planning)
• 子目标和分解:AI Agents 能够将大型任务分解为较小的、可管理的子目标,以便高效的处理复杂任务;
• 反思和细化:Agents 可以对过去的行为进行自我批评和反省,从错误中吸取经验教训,并为接下来的行动进行分析、总结和提炼,这种反思和细化可以帮助 Agents 提高自身的智能和适应性,从而提高最终结果的质量。
2. 记忆 (Memory)
• 短期记忆:所有上下文学习都是依赖模型的短期记忆能力进行的;
• 长期记忆:这种设计使得 AI Agents 能够长期保存和调用无限信息的能力,一般通过外部载体存储和快速检索来实现。
3. 工具使用(Tool use)
• AI Agents 可以学习如何调用外部 API,以获取模型权重中缺少的额外信息,这些信息通常在预训练后很难更改,包括当前信息、代码执行能力、对专有信息源的访问等。