凡事架不住亲自跑一把——养「狗🐶」( nanobot🤖)

「五·一」长假开始养的 nanobot🐈 。之所以没有选择养「虾🦞」,是觉得代码太庞杂。本来对 LLM🧠 就理解不透,再套件「羽绒服」,那不是更看不清😵💫?∴找了件「背心🎽」,甚至可能只是件「肚兜」——据说只有 4k+ 行代码😱,后面可能膨胀了些。

事后证明,就探究而言,就我这水平,就我这时间投入,选 Ultra-lightweight 级 agent🤖️ 框架刚刚好,尤其是对理解 agent🤖️ 框架极有帮助。

一、agent🤖️ 的「记忆」从哪里来?

以前大概知道,但没有深切体会的一个「盲区」是:「LLM🧠 是金鱼脑子🐠,准确地说是和 HTTP 一样「无状态」——它只是一个计算机器」。以前之所以没有意识到,可能是因为关注点都在「一次」对话内,而从没把视野放到「多轮长对话」上。而注意到「LLM🧠 是无状态的」,是理解「token 经济💰」「缓存命中率🎯」……的钥匙🔑。

1⃣️ 黄仁勋炒 token 经济的时候,我就觉得奇怪:他凭什么笃定 token 消耗会指数增长?理解了「agent🤖️ 是通过把前一次的上下文带入 LLM🧠来模拟记忆的」,也就理解了「任务越长程,每一次都需要带入上一次的上下文,输入越来越长,自然 token 消耗也就越来越多」。这就像最近在炒「用 HTML 取代 MarkDown」一样,废话,HTML 需要多得多的 token,而且还人类不易读😒。

但我觉得,「token 经济学」是个伪命题😒。是的,把 token 类比电力⚡的话,token 一定会急剧增长,但哪家公司会宣传自家产品「消耗了 10 千瓦电力」?∴「比 token 消耗」一定会回归于「比效果」——趋势一定是「短而有用」。现阶段的「鼓励消费 token」只不过是观念更新期的「矫枉必须过正」而已。

2⃣️ 之前听到「谁谁的缓存命中率🎯有 90%+,涨 token 📈,不涨账单」的时候就很奇怪:怎么可能会有那么多人问出同样的问题吗?那「命不命中🎯」还有什么意义?原来,命中🎯的粒度不是「茫茫大众问出的各式各样的问题」,而是「同一个长程对话[1]下的问题」。

优化「前缀缓存」可是被 Anthropic 认证了的「省钱小妙招[2]」。

二、打开 agent🤖 的脑子🧠看一看

当然,LLM🧠 内部是看不到,也看不懂的,但是 agent🤖️ 的脑子🧠 是敞开给你看的啊!∵它们自己是没脑子🧠 的,需要仰仗外部 LLM🧠,∴只需要在 agent🤖️(本质就是一个循环♻️[3])& LLM🧠 之间插入一个转发路由,就行了😏 。

然后你能知道什么呢?几乎所有一切。思考过程、调用工具🔧、执行结果……

2.1. LLM🧠 不给力时,怎么让 agent🤖 左脚踩右脚——原地飞升?

由于我用的是 DeepSeek V4 flash(Pro 实在用不起😭),代码能力着实没眼看。∴我的策略是:先让 Pro 写一个几行的原型 MVP(Minimum Viable Product) ➡️ 确认跑通后,再让 Pro 填充功能 ➡️ 如此往复……现在,我的转发路由已经膨胀到 500+ 行了😅——用「屎山💩⛰️」来形容也不为过。

为什么不直接让 Pro 上难度?∵Pro 的 coding 也好不到哪去😅。LLM🧠 写东西就是喜欢「王大妈的裹脚——又长又臭😒」,coding 也继承了这一文风。一个小脚本能给你写出《滕王阁序》的感觉。要不是贫道略懂些代码,可能会当成是工业级作品😒。同时,它特别喜欢秀文笔——让它小改,人家能给你「推倒重来」,又再次引入一堆没有验证过的代码🤯。

总的来说,LLM🧠 是迎合型人格,你开个tou,它就顺着你递上的杆子爬,∴会「垃圾进,垃圾出」——如果输入没有洞见,输出一定是一坨屎💩,而且是一坨平庸的屎💩。

三、养狗🐶点滴

3.1. 「完成目标」的优先级远高于「指令遵循」

  • 比如,他🐶会很得意地告诉我,他🐶「是怎么绕过安全守卫的」😅;
  • 再如,让他🐶去邮箱下一份 pdf,他🐶直接上网搜同名的公开资源,说「省事多了」😱;
  • ……;

当然,你不能一边指望他「想方设法」完成任务,一边有责怪他「不择手段」(不遵从你下达的指令)。毕竟,他接受的训练就是围绕单一目标试错 / 优化。所谓「没有对齐人类价值观」的潜台词是「人类的目标函数是多元的」,说人话就是「既要又要还要」;

……


  1. 长程任务的黑话好像叫 long horizon 😵💫。

  2. Lessons from building Claude Code: Prompt caching is everything.

  3. 业界还给这个循环♻️取了个名字,叫「Ralph Loop」🤣。当然,理解为「反馈循环」更准确一些,重点是将「反馈」自动传回。也许 harness 也可以理解为「反馈循环」,只不过是一个为了捕捉更加匹配的「反馈」而套上的一层马甲。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容