OpenClaw登顶Github Stars:Agent成本真相,是一场上下文工程战争。

OpenClaw 用一种极端的方式验证了一件事:Agent 的成本,本质上是一个上下文工程(Context Engineering)问题。不是模型贵,不是推理慢,不是智能不够,而是我们往上下文窗口里塞了多少 token。当我们真正拆开账单,会发现钱不是烧在"智能"上,而是烧在"上下文管理失控"上。

一、Agent 的真实成本结构

一次 Agent 推理的本质只有一件事:输入一堆 token,生成一堆 token。成本 = 输入 token + 输出 token。而输入 token 的失控,往往来自四个来源:

固定税(System Prompt):每轮对话都要重复支付,越复杂的 Agent 税越高。许多框架默认 2k–5k token 的 system prompt,这是一种静态税。

历史滚雪球:不压缩对话历史时,每一轮都复制前面的全部内容,token 线性增长,成本接近指数级攀升。

工具输出垃圾堆积:工具返回的大段 JSON、冗余字段、未裁剪的原始文本,模型必须完整读取,哪怕只需要其中 5%。

隐形消耗:长 chain-of-thought、自我反思、中间 scratchpad、任务轮询心跳,都是看不见的 token 消耗器。

真正的问题不是"模型贵",而是:是否把上下文当作有限资源来管理。这就是上下文工程的核心命题。

二、RAG 没死,它升级了

很多人说 RAG 已经过时,但从上下文工程的角度看,它反而变得更核心。RAG 的本质从来不是"外挂知识库",而是:不把所有知识塞进 prompt,只注入当前任务最小必要信息。这恰恰是 Agent 时代的核心原则——精准检索、精准注入、严格裁剪。

在 Agent 架构中,RAG 进化为"上下文调度器":Agent 主动决定是否检索而非默认每次都检索;支持多轮递归检索,结果引导下一次检索;记忆从文本块升级为结构化状态、任务节点、事件日志、向量与关系图的组合;每轮推理前动态计算任务状态、评估必要信息、裁剪历史、拼接最小上下文。这已经不是"提示工程",而是上下文调度系统。

三、可落地的上下文工程架构

分层记忆设计:短期记忆(Working Memory)只保留当前任务、最近 1–3 轮对话和关键中间变量,必须小且结构化;

中期记忆(Session Memory)用摘要替代原始对话,记录会话目标、已完成步骤和关键决策;

长期记忆(Persistent Memory)存储用户偏好、项目背景和历史案例,通过 RAG 精准检索注入。

历史压缩策略:不把历史当文本堆,采用周期性摘要、重要性评分、结构化状态替代自然语言,目标是用 200 token 表达 2000 token 的状态。

工具输出裁剪:工具层应负责压缩而非让模型负责——定义最小必要字段、删除冗余日志、结构化 schema 输出、做一次 summarization 后再注入。

三条核心原则:

状态外部化,用 JSON、数据库、任务树、状态机保存状态,让模型读取"摘要状态"而非"完整历史";

按需注入,每段信息都必须回答"它是否对当前推理必要";

压缩优先于推理,很多问题通过摘要、过滤、结构化即可解决,压缩成本远低于推理成本。

四、终极洞察

OpenClaw 验证的不是"模型多强",而是:Agent 不是智能爆炸问题,而是上下文调度问题。模型已经足够强,真正的难点是让它看到刚刚好的信息、不被信息淹没、同时成本可控。

未来最有价值的 Agent 工程师,不是会写框架的人,而是能清楚说出"每 1 美元烧在哪里"的人——他们具备 token 成本建模能力、上下文裁剪能力、记忆架构设计能力和推理深度与成本的 tradeoff 判断能力。他们优化的不是模型参数,而是信息流。

当行业从"模型崇拜"转向"上下文工程",Agent 才会真正进入可规模化时代。而那时,上下文工程师,将成为这个时代最稀缺的角色。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容