OpenClaw 用一种极端的方式验证了一件事:Agent 的成本,本质上是一个上下文工程(Context Engineering)问题。不是模型贵,不是推理慢,不是智能不够,而是我们往上下文窗口里塞了多少 token。当我们真正拆开账单,会发现钱不是烧在"智能"上,而是烧在"上下文管理失控"上。
一、Agent 的真实成本结构
一次 Agent 推理的本质只有一件事:输入一堆 token,生成一堆 token。成本 = 输入 token + 输出 token。而输入 token 的失控,往往来自四个来源:
固定税(System Prompt):每轮对话都要重复支付,越复杂的 Agent 税越高。许多框架默认 2k–5k token 的 system prompt,这是一种静态税。
历史滚雪球:不压缩对话历史时,每一轮都复制前面的全部内容,token 线性增长,成本接近指数级攀升。
工具输出垃圾堆积:工具返回的大段 JSON、冗余字段、未裁剪的原始文本,模型必须完整读取,哪怕只需要其中 5%。
隐形消耗:长 chain-of-thought、自我反思、中间 scratchpad、任务轮询心跳,都是看不见的 token 消耗器。
真正的问题不是"模型贵",而是:是否把上下文当作有限资源来管理。这就是上下文工程的核心命题。
二、RAG 没死,它升级了
很多人说 RAG 已经过时,但从上下文工程的角度看,它反而变得更核心。RAG 的本质从来不是"外挂知识库",而是:不把所有知识塞进 prompt,只注入当前任务最小必要信息。这恰恰是 Agent 时代的核心原则——精准检索、精准注入、严格裁剪。
在 Agent 架构中,RAG 进化为"上下文调度器":Agent 主动决定是否检索而非默认每次都检索;支持多轮递归检索,结果引导下一次检索;记忆从文本块升级为结构化状态、任务节点、事件日志、向量与关系图的组合;每轮推理前动态计算任务状态、评估必要信息、裁剪历史、拼接最小上下文。这已经不是"提示工程",而是上下文调度系统。
三、可落地的上下文工程架构
分层记忆设计:短期记忆(Working Memory)只保留当前任务、最近 1–3 轮对话和关键中间变量,必须小且结构化;
中期记忆(Session Memory)用摘要替代原始对话,记录会话目标、已完成步骤和关键决策;
长期记忆(Persistent Memory)存储用户偏好、项目背景和历史案例,通过 RAG 精准检索注入。
历史压缩策略:不把历史当文本堆,采用周期性摘要、重要性评分、结构化状态替代自然语言,目标是用 200 token 表达 2000 token 的状态。
工具输出裁剪:工具层应负责压缩而非让模型负责——定义最小必要字段、删除冗余日志、结构化 schema 输出、做一次 summarization 后再注入。
三条核心原则:
状态外部化,用 JSON、数据库、任务树、状态机保存状态,让模型读取"摘要状态"而非"完整历史";
按需注入,每段信息都必须回答"它是否对当前推理必要";
压缩优先于推理,很多问题通过摘要、过滤、结构化即可解决,压缩成本远低于推理成本。
四、终极洞察
OpenClaw 验证的不是"模型多强",而是:Agent 不是智能爆炸问题,而是上下文调度问题。模型已经足够强,真正的难点是让它看到刚刚好的信息、不被信息淹没、同时成本可控。
未来最有价值的 Agent 工程师,不是会写框架的人,而是能清楚说出"每 1 美元烧在哪里"的人——他们具备 token 成本建模能力、上下文裁剪能力、记忆架构设计能力和推理深度与成本的 tradeoff 判断能力。他们优化的不是模型参数,而是信息流。
当行业从"模型崇拜"转向"上下文工程",Agent 才会真正进入可规模化时代。而那时,上下文工程师,将成为这个时代最稀缺的角色。