一:感知能力
阶段1、单纯的大模型是依靠海量的文本数据训练出啦的,基础的感知方式就是接收用户输入的文本
阶段2、间接多模态感知:利用OCR这种中间工具,把图片、PDF等转化为文本输入给大模型
阶段3、端到端视觉感知:第2种方式有明显的问题比如:识别不到图片的背景颜色、声音的语气语调;GPT4有了Vision版本开启了多模态模型的初阶状态
阶段4、端到端多模态感知:能够理解声音中语气、语调以及图片细节等信息,甚至能视频 时序的多模态大模型 此时大模型有了其:耳朵、眼睛、嘴巴都有啦
二:规划能力
Agent规划能力演变:
阶段1、初步规划能力的萌芽(CoT与ToT)
COT思维链模式:让模型在给出最终答案之前,先主动去拆解一下问题
比如:第一步考虑该干什么,第二步再干什么…最后再把以上这些步骤综合起来得出结论
思维树:让大模型想好几种不同的思路,选最好的那个
阶段2、工作流和多智能体架构:各个AI各司其职、协作来完成任务 人为干预(Workflow和多智能体架构)———治标不治本
阶段3、专门推理模型(OpenAI的O1和R1)
让大模型内化的学会了在每一次回答问题之前都有一个自主的推理过程
阶段4、模型即Agent;端到端训练的“模型即Agent”(DeepResearch)
模型自主决定,什么时候需要去搜一下信息,什么时候应该整理一下信息,什么时候应该进入深度的搜索…再分析总结,整个过程完全是它自己控制的,并不是依赖预先设计好的工作流或者是人为指定的步骤
搜索和阅读是怎么来的呢?
三:行动能力
1、监督微调(SFT),提供一些示例做监督微调,让模型学会了去调用工具
监督微调:通过人工标注的高质量数据来训练预训练大模型,使其更好的完成特定任务
Function Calling(大模型函数调用)——插件功能、代码解释器等所依赖的就是自己有不少的API工具
2、直接学人类用电脑
Authropic发布了Computer use,训练大模型从视觉上就能看懂这个电脑屏幕,可以点击和操作电脑(原理:直接去训练模型来理解屏幕像素的一个能力)
如果只让大模型去控制浏览器会更好搞定Brower use,用传统的网页自动化工具(Play white)间接让模型控制浏览器的能力 比如:OpenAI的Operator
3、MCP(Model Context Protocal) 模型上下文协议,由Authropic推出;
简单来说,原本大模型调用API是一个工具就需要单独配一把钥匙对着一个锁(钥匙和锁还需要自己造),MCP就相当于一个多孔Type-C转接头,要求所有人都按这个规格来做接口,用什么工具,直接往上插就行
简单来说MCP就是AI大模型的标准化工具箱,大模型可以利用这些工具与外界互动,获取信息并且完成具体任务
AI与外部工具的中间层,代替人类访问并且操作外部工具
每个MCP Server都专精于一类的工作,比如:有的负责读写本地文件,有的负责读写浏览器,有的操作Git仓库
MCP通常就是运行在本地的一段nodejs或Python程序,大模型通过操作系统的stdio也就是标准输入通道调用某个MCP Server
MCP接口请求后,通过代码功能或者使用API请求访问外部工具完成任务
MCP其实与function call功能相似,其最大优点是整合了之前各家大模型不同的function call的标准,整合成统一的标准协议
包括OpenAI刚发布的Agent SDK以及新的response API,并且还内置了OpenAI自己开发的工具
四:记忆能力
LLM早期的上下文非常短(或者说短期记忆力很差),光上下文长度不够,有时候还是希望永远不要忘记,所以还有另一个方案叫RAG(Retriveal-Augmentd Generation)检索增强生成
简单理解就是把大模型需要记忆的知识,事先存到一个外部的一个向量数据库里,每次需要的时候,再去数据库里找有没有相关的内容
记忆模块:Agent需要在中途对前面发生的事做一定的总结,存起来,自己偶尔去回顾一下,这样就形成了一个记忆模块
NSA(Sparse Attention Mechanism)稀疏注意力机制;是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。论文地址