智能体
智能体AI Agents指能够感知环境、做出决策并采取行动以实现特定目标的智能系统。自动驾驶汽车就是一种典型的智能体。
大模型LLM是智能体的“大脑”,能够处理复杂的任务,生成文本/故事/程序等。智能体包括规划(Planning)、工具(Tools)、记忆(Memory)等关键组件。
任务规划通过思维链能力实现任务分解,包括复杂任务的子问题拆解,推理行动和自我反思能力。
-
任务的子问题拆解:复杂任务不是一次性就能解决的,需要拆分成多个并行或串行的子任务来进行求解,任务规划的目标是找到一条最优的、能够解决问题的路线。
- 思维链(Chain of Thought, CoT):通过逐步思考将复杂任务分解为更小、更简单的步骤。
- 思维树(Tree of Thoughts):在每一步探索多种推理可能性,生成多个思考路径。
-
自我反思与批判:执行某一个子任务的时候,不一定总是能够返回想要的结果,因此模型需要有一定反思能力判断是否通过当前方式能够得到正确结果,如果不能则要动态地调整任务的序列。
- ReAct:推理+行动,让Agents执行下一步action的时候,加上LLM自己的思考过程,并将思考过程、执行的工具及参数、执行的结果放到prompt模版中,就能使得模型对当前和先前的任务完成度有更好的反思能力,从而提升模型的问题解决能力。
Thought: ...
Action: ...
Observation: ...
... (Repeated many times)
- Reflexion:为智能体提供动态记忆和自我反思能力,以改进推理技能。
- Chain of Hindsight(CoH):通过呈现过去输出序列及其反馈,鼓励模型自我改进。
记忆:,记忆可以被定义为用于获取、存储、保留以及检索信息的过程。类比人脑记忆有几种类型:
- 感觉记忆:短暂保留感官信息。
- 短期记忆/工作记忆:存储当前意识到的信息,用于执行复杂的认知任务。
- 长期记忆:存储长期信息,分为显性记忆(事实和事件)和隐性记忆(技能和习惯)。
有一些热门的项目,例如AutoGPT, GPT-Engineer, BabyAGI
和HuggingGPT在这个方向做了示范性的尝试。
智能体框架
列几个知名的智能体框架,包括LangChain,CrewAI,OpenAgents和Autogen:
LangChain
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。它的核心设计目标是实现数据感知和主动性,即让语言模型不仅通过 API 调用,还能与其他数据源连接,并与其环境进行交互。
主要概念包括:
- 组件:LangChain 提供了模块化的抽象,用于处理语言模型所需的组件,并为这些抽象提供了实现的集合。这些组件易于使用,无论是单独使用还是与 LangChain 框架的其他部分一起使用。
- 用例特定链:链可以被看作是以特定方式组装这些组件,以便最好地完成特定用例。这些链旨在提供一个更高级别的接口,使人们可以轻松地开始特定的用例,并且可以定制化。
LangChain Express Language (LCEL)
LCEL 是 LangChain 提供的一种简洁的、用于组装链的声明性方式。通过 LCEL,可以将自然语言输入、关联知识检索、Prompt 组装、可用工具信息、大模型调用、输出格式化等常见动作组装成一个可以运行的“链”式过程。例如:
chain = setup_and_retrieval | prompt | model | output_parser
这清晰地展示了一个简单的 RAG(检索增强生成)应用处理过程:检索关联文档、组装 Prompt、调用大模型、输出处理。
AgentExecutor
AgentExecutor 是 LangChain 中用于调度 Agent 运行的工具。它通过大模型决定采取什么行动,使用什么工具,或者向用户输出响应,然后执行这些行动,并将结果继续交给大模型来决定下一步。然而,AgentExecutor 的调度过程过于黑盒,缺乏精细的控制能力,这在构建复杂 Agent 时可能会受限。
LangGraph
为了解决 LangChain 简单链不具备“循环”能力的问题,以及 AgentExecutor 调度过程过于黑盒的问题,LangGraph 被设计为基于 LangChain 之上构建的一个扩展库。LangGraph 能够协调多个 Chain、Agent、Tool 等共同协作来完成输入任务,支持 LLM 调用“循环”以及 Agent 过程的更精细化的控制。
LangGraph 的实现方式是把基于 AgentExecutor 的黑盒调用过程用一种新的形式来构建:状态图(StateGraph)。通过定义图的节点与边,将基于 LLM 的任务细节用 Graph 进行精确的定义,并基于这个图来编译生成应用。
总的来说,LangChain 提供了一个强大的框架,通过模块化组件和用例特定链,使得开发由语言模型驱动的应用程序变得更加容易和灵活。而 LangGraph 则进一步扩展了这一框架,支持更复杂的场景和更精细的控制。
LangChain 框架最近对agent 部分做了详细的文档整理,参考链接:Agents | ️ LangChain
CrewAI
这是一个基于LangChain 的框架,CrewAI 是一个用于编排角色扮演的 AI 智能体框架,通过促进协作智能,使代理能够无缝协作,处理复杂任务。
主要特性包括:
- 基于角色的代理设计:为代理定制具有特定角色、目标和工具的代理。
- 自主代理间任务委托:代理能够自主地委托任务并在彼此之间询问,提高问题解决的效率。
- 灵活的任务管理:使用可定制的工具定义任务,并动态分配给代理。
-
流程驱动:目前仅支持顺序任务执行(
Process.sequential
),但正在开发更复杂的流程,如共识和层级流程。 - 与开源模型兼容:可以使用 Open AI 或开源模型或本地模型运行团队。
使用起来非常简洁,下面是一段代码示例:
import os
from crewai import Agent, Task, Crew, Process
os.environ["OPENAI_API_KEY"] = "您的密钥"
# 定义具有角色和目标的代理
researcher = Agent(
role='高级研究分析师',
goal='揭示AI和数据科学的最前沿发展',
backstory="你在一个领先的科技智库工作。你擅长识别新兴趋势。",
verbose=True,
allow_delegation=False
)
writer = Agent(
role='技术内容策略师',
goal='撰写关于技术进步的引人入胜的内容',
backstory="你是一名著名的内容策略师,以你富有洞察力和引人入胜的文章而闻名。",
verbose=True,
allow_delegation=True
)
# 为您的代理创建任务
task1 = Task(description="进行2024年AI最新进展的全面分析。", agent=researcher)
task2 = Task(description="使用所提供的洞见,开发一篇引人入胜的博客文章。", agent=writer)
# 实例化您的团队并采用顺序处理
crew = Crew(agents=[researcher, writer], tasks=[task1, task2], verbose=2)
result = crew.kickoff()
print("######################")
print(result)
CrewAI 可以应用于生成环境中,牺牲了一点灵活性和随机性,但在代理人的能力、任务和发言转向上获得了更多的确定性。 例如:
- 旅行规划器:根据天气条件和保险项目列表生成旅行计划。
- 股票分析:分析市场趋势并提供投资建议。
- 登录页面生成器:生成引人入胜的登录页面内容。
CrewAI 支持与本地模型集成,通过工具如 Ollama 等,增强灵活性和自定义能力。这允许使用自己的模型,这对于专门的任务或数据隐私问题特别有用。
通过这些特性和应用场景,CrewAI 提供了一个强大的框架,使得 AI 代理能够以团队的形式协作,处理复杂的任务和问题。
OpenAgents
港大的研究团队最近发布了一个新的开源 Agent 框架,名为 OpenAgents. 它可以用于实际用户场景,特别是在使用自然语言执行复杂任务的情况下。先前的语言智能体框架主要关注概念验证或者供开发人员使用,而 OpenAgents 则更注重非专家用户的使用体验和应用设计。它提供了一个开放的平台,让更多人可以在日常生活中使用和部署语言智能体。
Autogen
Autogen是多Agent交互协助的LLM应用。AutoGen agent是可定制的、可对话的,并能以各种模式运行,这些模式采用 LLM、人类输入和工具的组合。使用 AutoGen,开发人员还可以灵活定义agent交互行为。自然语言和计算机代码都可用于为不同的应用编程灵活的对话模式。
Autogen 是一个用于构建和训练即智能体的框架。它允许开发者通过自然语言指令来训练和控制智能体,使其能够执行复杂的任务和与用户进行交互。以下是 Autogen 的一些关键特点和功能:
-
自然语言交互:
- Autogen 允许通过自然语言与智能体进行交互,使得用户可以以对话的形式与智能体沟通。
-
任务驱动:
- 智能体可以根据用户指定的任务进行操作。这些任务可以是简单的查询,也可以是复杂的多步骤任务。
-
自主学习:
- Autogen 的智能体可以通过与环境的交互自主学习,不断改进其行为和决策。
-
多智能体协作:
- Autogen 支持多智能体系统,允许多个智能体协同工作,共同完成复杂的任务。
-
工具使用:
- 智能体可以调用外部工具和 API,扩展其功能。例如,智能体可以使用搜索引擎、文件系统操作、代码执行等工具。
-
任务分解:
- 智能体可以将复杂任务分解为更小的子任务,并逐步执行这些子任务以完成整个任务。
-
自我反思和改进:
- 智能体可以通过自我反思和自我批评来改进其行为。例如,通过回顾过去的决策和行动,智能体可以学习如何在未来做出更好的选择。
-
可扩展性:
- Autogen 的架构设计使其易于扩展和定制。开发者可以添加新的功能和工具,以适应不同的应用场景。
-
安全性和伦理:
- Autogen 考虑了智能体的安全性和伦理问题,确保智能体的行为符合道德和法律标准。
-
社区和开源:
- Autogen 是一个开源项目,拥有活跃的社区。开发者和研究人员可以共同贡献代码,改进框架,并分享他们的经验和成果。
Autogen 的目标是创建能够理解和响应用户需求的智能体,同时具备学习和适应环境的能力。通过不断的交互和学习,Autogen 的智能体可以变得更加智能和有用。
参考资料:
LLM Powered Autonomous Agents | Lil'Log (lilianweng.github.io)
字节:AutoGPT与LLM Agent解析
解锁大模型智能体核心技术,10行代码轻松构建专属AI助手!
潘浩杰:AI智能体Roadmap