AI 能力演进图谱

一、LLM 解决了什么问题

LLM 本质是一台概率预测机器,通过在海量文本上训练,涌现出了:

能力 典型场景
文本生成与改写 写作、翻译、摘要
代码生成与解释 写函数、修 Bug
模式识别与分类 情感分析、意图识别
知识问答 百科问答、概念解释
格式转换 JSON↔表格、Markdown↔HTML
少样本推理 给几个例子,模型举一反三

核心价值:把人类知识压缩进参数,用自然语言对话即可调用——无需写代码、无需专业培训。


二、LLM 解决不了什么问题

LLM 有六大根本局限:

局限 原因 后果
精确计算 数字也是 Token 预测,不是真正计算 大数乘法可能给出自信的错误答案
实时信息 训练数据有截止日期 问今天的股价、天气必然出错
内部私有知识 只学过公开数据 不知道你公司的产品文档、内部规范
精确记忆长文本 "Lost in the Middle"——对中间内容注意力弱 10 万字文档中间的细节容易遗漏
复杂推理链 多步错误会累积 步骤越多,越容易跑偏
跨会话记忆 对话结束后上下文清空 每次对话从零开始

这些局限共同导致了最核心的工程挑战:幻觉——模型不知道自己不知道,会自信地编造"合理"的错误答案。


三、引入 RAG:解决"知识边界"问题

RAG = Retrieval-Augmented Generation(检索增强生成)

解决的问题:LLM 的知识是静态的、有截止日期的、不含私有内容的。

工作方式

[离线] 文档 → 切片 → 向量化 → 存入向量数据库

[在线] 用户问题
          ↓ 向量检索:从知识库找最相关片段
          ↓ 组装 Prompt:"根据以下资料回答:[检索内容] + [用户问题]"
          ↓ LLM 基于真实文档生成回答

RAG 带来的四大收益

  1. 解决知识截止:内部文档、最新资料可以随时更新入库
  2. 减少幻觉:模型有参考资料时倾向于基于资料回答,而非自由发挥
  3. 可追溯:回答可附上"来源:第X段",用户可验证原文
  4. 无需重新训练:更新知识库只需更新文档,成本极低

RAG 的局限:检索质量决定回答质量,难点在"切好文档、检索准",而非 LLM 本身。


四、引入 Function Call:解决"执行边界"问题

根本限制:LLM 只能输出文本,无法执行代码、读写文件、调用 API、控制外部系统。

Function Calling 的核心思想

LLM 输出的虽然只是文本,但可以是结构化的 JSON。外部程序解析这段 JSON 并真正执行,再把结果反馈给模型——LLM 从未"执行"任何东西,但等效于调用了外部功能。

完整流程

用户问题 + 工具列表描述
          ↓
     LLM 输出调用指令(JSON)
          ↓
     外部代码解析并真正执行
          ↓
     执行结果注入 Context
          ↓
     LLM 读取结果 → 生成最终回答

Function Call 解锁了什么

  • 查询实时数据(告别幻觉)
  • 读写文件、执行命令(从"说"到"做")
  • 调用任意 API(连接整个互联网和内部系统)
  • 串联多步工具调用(处理复杂任务)

五、引入 AI Agent:解决"自主执行"问题

纯 LLM 的模式:输入 → 输出,一问一答,被动响应,每次从零开始。

Agent 加了什么:在 LLM 之上加一个执行循环(Agent Loop)

用户给出目标
      ↓
[循环执行]
  思考:现在应该做什么?        ← LLM 决策
  行动:调用工具               ← 外部工具执行
  观察:工具返回了什么?        ← 结果注入 Context
  判断:任务完成了吗?→ 没有 → 继续循环
      ↓
目标达成,输出结果

Agent = LLM 大脑 + Function Calling 协议 + 外部工具集合

对比维度 纯 LLM AI Agent
交互方式 一问一答 自主多步执行
工具使用 可调用外部工具
状态保持 有(跨步骤记忆)
主动性 被动响应 主动规划和执行

Agent 解决的核心问题:把"对话"变成"行动"——用户只需说出目标,Agent 自行拆解计划、调用工具、处理错误、迭代完成,无需人工逐步介入。


六、引入 MCP:解决"工具能力扩展"问题

Function Call 的局限:工具能力是硬编码在 Agent 框架内部的,第三方无法扩展,也无法跨平台复用。

MCP(Model Context Protocol) 是 Anthropic 提出的开放标准协议,让任何人都可以把工具能力封装成独立服务,Agent 通过统一协议接入——就像 USB 接口,插上即用。

与 Function Call 的关系

Function Call(LLM 调用工具的协议)
         ↓ 调用的工具来自哪里?
  ┌──────────────────────────────────┐
  │ 内置 Tool(本地直接执行)          │  ← 读文件、执行命令、搜索等
  │   Claude Code 主进程内部实现       │
  └──────────────────────────────────┘
  ┌──────────────────────────────────┐
  │ MCP Tool(外部进程/远程服务执行)   │  ← 支付、数据库、第三方 API 等
  │   独立进程或远程 HTTP 服务提供      │
  └──────────────────────────────────┘

两种部署方式

对比 内置 Tool(本地) MCP Tool(外部)
执行位置 Agent 主进程内 独立进程 / 远程服务器
谁来实现 框架内置,固定 任何人都可以开发
扩展性 低,改框架才能加 高,配置即接入
适合场景 文件、命令等系统操作 支付、数据库、专业 API
通信方式 直接函数调用 JSON-RPC(stdio 或 HTTP)
示例 Read / Write / Bash payments-mcp / Context7

MCP 解决的核心问题

  1. 能力无法扩展:内置工具是固定的,MCP 让第三方可以自由开发并插入新能力
  2. 跨平台复用:一个 MCP Server 可以被任意 Agent 框架接入,不绑定特定系统
  3. 领域隔离:专业领域(钱包、数据库、监控)独立成服务,主 Agent 不需要关心实现细节
  4. 状态管理:独立进程可以维护自己的连接池、缓存、认证状态,不污染 Agent 主进程

一句话区分

Function Call 是 LLM "说我要调用什么"的语言;MCP 是工具能力"住在哪里、怎么被找到"的标准。两者配合,让 Agent 的工具集从固定变成无限可扩展。


七、引入 Skill:解决"复用与标准化"问题

Agent 有了工具,但新问题出现了:同一类任务(如 Git 提交、发送转账、跑测试)每次都要靠 LLM 临时规划步骤,流程不稳定、容易遗漏、无法沉淀经验。

Skill(技能)是什么:用户/团队预先定义的高级工作流模板,把多个 Tool 调用的固定顺序和规则封装成一个命名单元,Agent 直接调用即可。

没有 Skill(纯 Agent):
  用户: "帮我提交代码"
  LLM 临时推理 → 可能忘记 git diff → 可能格式不规范 → 每次结果不同

有 Skill:
  用户: "/commit"
  → 加载预定义的 commit 工作流
  → 步骤固定: git status → git diff → git log → 生成规范 message → add → commit → 验证
  → 结果稳定、流程可控

Skill 解决的核心问题

问题 Skill 的解法
流程不稳定 固化多步骤顺序,每次执行路径一致
经验无法沉淀 把最佳实践写进 Skill,团队共享
工具选择错误 预先限定该 Skill 只能用哪些 Tool,避免误调用
重复描述需求 /skill-name 一键触发,无需每次用自然语言解释
领域知识缺失 Skill 的 instructions 里可以内嵌领域规则和注意事项

Skill 的结构

Skill = {
  name:         "/commit"               ← 触发名称
  description:  "创建规范的 git 提交"    ← LLM 判断何时使用
  instructions: "1. git status → 2. git diff → 3. 分析变更 → 4. 生成 message → 5. add → 6. commit"
  tools:        [Bash]                  ← 限定可用工具范围
}

Skill 在整个体系中的位置

用户指令
    ↓
Skill(高级工作流)   ← 封装领域知识和最佳实践
    ↓
Tools(原子操作)     ← Read / Write / Bash / mcp__xxx
    ↓
Function Call        ← LLM 决策调用哪个工具
    ↓
MCP Server / 外部系统 ← 真正执行

Skill vs 直接用 Agent 的区别

对比 纯 Agent Agent + Skill
步骤规划 LLM 每次临时推理 预定义固定流程
可重复性 不稳定,依赖 LLM 发挥 稳定,流程标准化
经验积累 无法沉淀 写入 Skill,持续优化
工具权限 所有工具都可用,风险高 限定工具集,更安全
触发方式 需要描述意图 /skill-name 精准触发

八、引入 Harness Engineering:解决"工程可靠性"问题

Skill 解决了流程标准化,但新问题出现了:即使有了 Skill,AI 系统在生产环境中仍然是一个"黑盒"——不知道质量如何、不知道何时出错、改了 Prompt 不知道效果好坏、出了故障不知道从哪排查。

Harness Engineering 的核心思想

给 AI 系统套上一整套控制、测试、管理基础设施,让原本不可预测的模型行为变得可评估、可观测、可信赖

"Harness" 原意是马具——套在马身上控制方向和力量的装置。在 AI 工程中,它是让 AI 这匹"野马"可以在生产环境中安全奔跑的工程体系。

Harness Engineering 解决的核心问题

问题 描述 Harness 的解法
质量不可量化 "感觉好多了"不是工程标准 评估体系(Eval Suite):用数字衡量质量
改了不知好坏 改 Prompt 后无法系统验证 回归测试:自动对比新旧版本表现
幻觉无法控制 模型自信地输出错误内容 Guardrails:输入/输出双层过滤
生产无法观测 出了问题不知从何排查 可观测性:Tracing + 日志 + 指标
成本失控 Token 消耗难以预测和优化 成本工程:模型路由 + 消耗监控
安全无保障 用户可能注入恶意指令 安全护栏:Prompt 注入防护

Harness Engineering 的四层架构

没有 Harness 的 AI:
  输入 → [黑盒模型] → 输出
  问题:不知道为什么出错,无法系统测试,无法评估好坏

有 Harness 的 AI:
  输入
    ↓
  [评估层 Evaluation]      ← 持续测量质量:Eval Suite / Benchmark / LLM-as-Judge
    ↓
  [执行层 Runtime]         ← 安全可靠运行:Guardrails / Prompt 管理 / 输出验证 / 降级策略
    ↓
  [可观测层 Observability]  ← 全链路透明:Tracing / Token 成本监控 / 异常告警
    ↓
  [测试层 CI/CD]           ← 持续验证:PR 触发 Eval / 回归测试 / 安全扫描
    ↓
  输出

三类核心实践

① 评估体系(Evaluation)——把"感觉"变成"数字"

没有评估:改 Prompt → 手测几个例子 → "感觉好多了" → 上线(不知道哪里变差了)
有评估:  改 Prompt → 跑 500 个测试用例 → 准确率 82%→91%
                    → 发现"否定问句"类别退步了 3% → 针对性优化
  • 自动化 Eval:有标准答案的任务直接对比;复杂任务用 LLM-as-Judge(用强模型评判弱模型)
  • Pairwise 对比:不打绝对分,让评估者判断"A 和 B 哪个更好"——更符合人类直觉
  • 回归测试集:包含核心场景、边界情况、对抗样本、历史 Bug 案例

② 护栏系统(Guardrails)——在模型两侧建立安全过滤层

用户输入 → [输入护栏: PII检测 / Prompt注入防护 / 有害内容过滤]
                ↓
          [模型调用]
                ↓
         [输出护栏: 事实一致性 / 格式验证 / 敏感信息脱敏 / 品牌安全]
                ↓
          最终输出

③ 可观测性(Observability)——AI 系统的专属监控维度

传统服务监控:延迟 / 错误率 / 吞吐量
LLM 额外需要:
  ├── Token 消耗(输入/输出分别统计,直接对应成本)
  ├── Prompt 版本(v2.3 和 v2.4 哪个效果更好)
  ├── 完整 Prompt + Response 记录(调试 AI 问题必需)
  ├── 幻觉检测率(事实错误频率)
  └── 模型降级次数(主模型不可用时的备用触发频率)

与前序技术的关系

Agent + Skill  →  构建了"能做事"的 AI 系统
Harness Engineering  →  让这个系统"做得好、做得稳、做得透明"

没有 Harness 的 Agent:能完成任务,但质量未知、失败时无法排查
有  Harness 的 Agent:完成任务 + 质量可量化 + 异常可告警 + 失败可追溯 + 成本可控

主流工具生态

层次 工具 用途
评估 DeepEval / Promptfoo / RAGAS 单元测试 / Prompt 回归 / RAG 质量评估
护栏 Guardrails AI / NeMo Guardrails 输入输出安全过滤
可观测 LangSmith / Helicone / Arize 链路追踪 + 成本监控
Prompt 管理 LangSmith Hub / Humanloop 版本控制 + A/B 测试

九、引入 Anthropic Harness:解决"长时间 Agent 架构弹性与质量"问题

通用 Harness Engineering 提供了评估、护栏、可观测性等工程实践,但当 AI Agent 需要运行数小时、执行数百个工具调用时,新的矛盾浮现:架构耦合导致任何一处崩溃都全功尽弃;Agent 评估自己产出时存在天然的利益冲突偏差,质量上不去。

Anthropic Harness 的核心洞察

"Harness 是对模型能力不信任的具象化。随着信任的建立,Harness 应该变薄,而不是变厚。"

Anthropic 在 2025–2026 年设计 Managed Agents 时,从操作系统设计中借鉴了虚拟化思想,形成了三大设计哲学:

哲学一:为"尚未被构想的程序"设计

操作系统的伟大之处在于:磁盘从机械换成 SSD,应用程序调用的 read() 接口从未改变。Anthropic 用同样思路设计了三个永不改变的稳定接口,让底层实现随模型能力自由演化:

底层实现(随模型进化频繁变化)
  ├── 上下文管理策略(今天滑动窗口,明天百万 token 根本不需要管理)
  ├── 沙箱技术(今天 Docker,明天 WebAssembly)
  └── 错误重试逻辑(模型越强,工具调用越稳,兜底逻辑越不需要)
        ↓  虚拟化为三个稳定接口
  Session(记忆)  ←  session.append(event) / session.get_history()
  Harness(大脑)  ←  harness.run(session)
  Sandbox(双手)  ←  sandbox.execute(name, input) → str
        ↓
  上层应用(今天的代码 Agent,明天的研究 Agent,后天尚未被想到的 Agent)

哲学二:Harness 编码的是假设,假设会过时

每一个 Harness 组件都隐含着对模型能力的悲观假设,模型进化后这些假设必须被重新检验并果断删除:

Harness 组件 隐含的悲观假设 实际演化结果
Sprint 任务分解 "模型无法在脑中维持整个大任务" Opus 4.6 百万 token 上下文 → 直接删除
上下文重置机制 "模型跑长了会焦虑漂移" Opus 4.5 不再出现此行为 → 降级为备用
Contract 协商机制 "模型记不住跨 Sprint 的目标" 随上述组件一并删除
多轮重试逻辑 "工具调用会频繁失败" 成功率 85%→99% → 逐步简化

实践:每次模型升级后运行消融测试(Ablation Test),量化各组件的实际贡献。Anthropic 将 Harness 从 7 个核心组件缩减到 3 个,性能不降,成本和延迟显著下降。

哲学三:大脑、双手、记忆彻底解耦

根基原则:状态(发生了什么)和行为(接下来做什么)不应该住在同一个进程里。

传统耦合架构(单容器):
  [LLM 调用 + 工具执行 + 上下文管理 + 凭证存储] = 一个脆弱整体
  任何部分崩溃 → 状态全部丢失 → 任务从头开始

解耦架构(三层分离):
  ┌─────────────────────────────────────────────────────────────┐
  │ Session(记忆层):追加式事件日志,独立持久化,存活于 Harness 之外  │
  │   Harness 崩溃 → Session 完好;新实例 wake(sessionId) 接管继续  │
  ├─────────────────────────────────────────────────────────────┤
  │ Harness(控制层):完全无状态,读 Session + 路由工具调用           │
  │   崩溃即换,横向扩展 = 多启几个无状态实例("牛群",不是"宠物")   │
  ├─────────────────────────────────────────────────────────────┤
  │ Sandbox(执行层):隔离容器,懒加载(按需创建),凭证永不进入       │
  │   容器崩溃 = 单次工具调用报错,Claude 决定重试;TTFT ↓60%        │
  └─────────────────────────────────────────────────────────────┘

核心安全设计:凭证从不进入 Sandbox——Git Token 仅用于初始化克隆后即丢弃;API Key 存于 Vault,通过专用代理注入,即使 Sandbox 被完全攻陷,凭证依然安全。

三智能体架构:Planner-Generator-Evaluator

对于长时间复杂任务,Anthropic 借鉴 GAN(生成对抗网络) 哲学,用独立上下文消除 Agent 的自我评估偏差:

GAN 的洞察:生成器与判别器参数独立 → 无法共谋 → 对抗性压力驱动质量提升
Agent 的转化:Generator 与 Evaluator 上下文独立 → 无法共谋 → 对抗性质量提升
Planner(规划者)
  一句话目标 → 功能列表 → Sprint 计划
  输出持久化 Plan Document(全局状态锚点,供所有 Agent 读取)
        ↓
    主循环(5-15 次迭代)
        ↓
  Generator(生成者)             Evaluator(评估者)
  └ 执行具体工作                   └ 完全独立上下文(不参与生成)
  └ 上下文定期重置(非压缩)  ──→   └ 强制怀疑论角色(System Prompt 注入)
    └ 防止上下文漂移                └ 评分维度量化(每项 1-10 分)
    └ 从 Plan Doc 重新加载目标      └ 真实浏览器测试(Playwright MCP)
        ↑────── 具体改进建议 ────────┘

实测数据(同一任务:构建 2D 复古游戏制作工具):

指标 单 Agent 三智能体 Harness
运行时间 20 分钟 6 小时
成本 $9 $200
迭代轮次 1 次 5-15 次
产出质量 原型级,勉强可用 生产级,功能完整完善

Managed Agents 平台(2026年4月正式发布):
将上述三哲学封装为云服务($0.08/session hour),开发者无需自建 Sandbox 基础设施和状态管理,直接运行多小时 Agent 任务。已落地:Notion(工作区任务委托)、Sentry(自动 Bug 修复)、Rakuten(Slack 企业 Agent)。

与前序技术的关系

第八章 Harness Engineering  →  通用工程实践:评估体系 + 护栏 + 可观测性,解决 AI 系统可测性
  ↓ 局限:长时间运行任务中,架构耦合导致崩溃即全失;单 Agent 自我评估存在天然偏差
第九章 Anthropic Harness   →  专攻长时间 Agent 的两个核心难题:
                               ① 架构解耦:Session/Harness/Sandbox 三层分离,崩溃不丢状态
                               ② 质量保障:Generator-Evaluator 对抗循环,消除自我评估偏差
                               ③ 动态演进:Harness 随模型进化持续"减负",不让旧假设成枷锁

十、引入 Hermes Agent:解决"自主进化"问题

Harness Engineering 让 AI 系统变得可测、可信、可运维,但仍有一个根本局限:AI 系统的能力是静态的——Prompt 是人工编写的,Skills 是人工维护的,系统从每次使用中学不到任何东西。使用一年和使用一天,能力没有差别。

Hermes Agent 的核心思想

AI 智能体应该像人类一样,从每次经历中学习并积累技能,而不是每次对话都从零开始。

"Hermes" 是希腊神话中信使之神,象征信息的传递与积累——在 AI 工程中,它是让 Agent 把每次经验转化为可复用知识的自进化框架(Nous Research 出品,2026 年 4 月发布 v0.9.0,前身为 OpenClaw)。

Hermes Agent 解决的核心问题

问题 描述 Hermes 的解法
经验无法积累 每次对话从零开始,过去解决过的问题下次还要重解 程序性记忆(Skill):自动将复杂任务经验固化为 SKILL.md
Skills 靠人工维护 最佳实践需要开发者手动编写,使用中发现的改进无法自动沉淀 后台 review agent:对话结束后静默分析,决定是否新建/更新 Skill
知识无法定期优化 Skill 写好就静止,随时间推移可能过时或不完整 Cron 调度器:定期"唤醒" agent 复习并改进既有技能
模型强绑定 换模型需要大量改代码,迁移成本高 模型无关性:20+ 提供商,hermes model 一键切换,无需改代码
多端重复搭建 每个平台需要单独接入 Agent 后端 多平台 Gateway:Telegram / Discord / Slack / WeChat 等 16+ 平台统一路由到同一 Agent 核心

三层记忆架构

程序性记忆(Skill)     ← 解决问题的"方法论"沉淀
  ~/.hermes/skills/SKILL.md
  结构:YAML frontmatter(名称/版本/平台/依赖)+ Markdown 步骤 + 已知陷阱
  来源:后台自动创建 / 主 Agent 主动调用 / 社区共享(agentskills.io)

情节性记忆(SQLite)   ← 经历过"哪些事"的记录
  SQLite + FTS5 全文检索,轻量替代向量数据库,无额外依赖
  检索时:FTS5 找相关段落 → LLM 压缩摘要 → 注入当前 prompt

工作记忆(Context)    ← 当前对话的临时状态
  达到 token 阈值时自动压缩历史(用 LLM 生成摘要保留关键信息)
  利用 Anthropic prefix caching,可节省最高 75% 输入 token 费用

核心自进化机制:后台 Skill 审查

[计数器机制]
每次 LLM API 调用,_iters_since_skill 计数器 +1
达到阈值(默认 10 次)→ 设置 review 标志

[执行时机:不阻塞主对话]
用户消息 → LLM 执行 N 次工具调用 → 生成最终 response → 发送给用户 ✓
                                                              ↓
                                          [后台静默] spawn review thread
                                          用户完全感知不到

[后台 review agent]
fork 一个全新的 AIAgent 实例
  - max_iterations=8(有上限,防止失控)
  - quiet_mode=True(完全静默,输出不可见)
  - _skill_nudge_interval=0(禁止递归触发 review)
  注入完整对话历史快照(深拷贝,不修改主对话)
  调用 skills_list() 获取现有技能列表
  LLM 语义判断:新建 / 更新 / "Nothing to save."

LLM 判断是否值得创建 Skill 的标准(非硬编码,完全由模型语义决策):

判断维度 说明
试错过程 任务是否经历了反复尝试、多次调整方向?
实验性发现 是否在执行中发现预期外情况,并据此改变策略?
用户纠偏 用户是否对方法表达不满,促使 agent 改变方式?
可复用性 这个方法下次遇到类似问题时还能用吗?

Skill 渐进式加载(三级,节省 Token)

Level 0(总是加载):技能名称 + 描述列表(约 3,000 tokens)
                    帮助 LLM 知道"有哪些技能可用"

Level 1(按需加载):完整技能内容(步骤 + 陷阱 + 示例)
                    当 LLM 判断当前任务需要该 Skill 时才加载

Level 2(按需加载):技能引用的外部文档
                    当 Skill 内容引用额外资料时才加载

自进化闭环

用户完成复杂任务(≥10 次工具调用迭代)
        ↓
[后台 review agent] 分析完整对话历史
        ↓
  ┌─────────────┴─────────────┐
  ▼                           ▼
值得保存                   不值得保存
  ↓                           ↓
新建 SKILL.md             "Nothing to save."
或更新已有 Skill             静默退出
  ↓
下次同类任务:直接复用(更快、更准)
  ↓
Cron 定期触发:复习使用记录 → 发现缺漏 → patch Skill
  ↓
越用越强的复合收益 ✓

与前序技术的关系

第七章 Skill               →  人工预定义工作流模板,靠开发者手动维护
第八章 Harness Engineering  →  让 AI 系统可测、可观测,但仍是静态系统
第九章 Hermes Agent         →  在 Skill + Harness 基础上加入自主学习闭环
                                Skill 从"人工编写"变成"自动积累 + 持续优化"

传统 AI Agent 是"工具"——你告诉它做什么,它做完就忘。
Hermes Agent 是"同事"——它记得你们一起解决过什么,
                         并且会在你睡觉的时候自己复习。

总结:能力演进的逻辑链

LLM                  → 解决"理解与生成":用自然语言处理复杂语言任务
  ↓ 局限:知识静止、私有盲区、幻觉
RAG                  → 解决"知识边界":接入外部动态知识库,让模型"有据可查"
  ↓ 局限:只能生成文本,无法执行动作
Function Call        → 解决"执行边界":让模型能驱动外部系统,从"说"到"做"
  ↓ 局限:只能单步响应,无法自主完成多步任务
AI Agent             → 解决"自主执行":加入循环决策机制,让模型能自主规划和完成复杂目标
  ↓ 局限:工具能力固定在框架内,第三方无法扩展和复用
MCP                  → 解决"工具扩展":标准化工具接入协议,任何人都可开发并插入新能力
  ↓ 局限:每次临时规划,流程不稳定,经验无法沉淀
Skill                → 解决"复用与标准化":把最佳实践固化为工作流模板,稳定、可复用、可共享
  ↓ 局限:AI 系统是黑盒,质量不可量化、出错无从排查、改了不知好坏
Harness Engineering  → 解决"工程可靠性":评估体系+护栏+可观测性,让 AI 系统可测、可信、可运维
  ↓ 局限:长时间 Agent 任务中,架构耦合导致崩溃即全失;单 Agent 自我评估存在天然偏差
Anthropic Harness    → 解决"长时间 Agent 架构弹性与质量":Session/Harness/Sandbox 三层解耦保证崩溃可恢复,Planner-Generator-Evaluator 对抗循环消除自我评估偏差;Harness 随模型进化持续"减负"
  ↓ 局限:能力是静态的,系统从每次使用中学不到东西,使用一年和一天没有区别
Hermes Agent         → 解决"自主进化":后台 review agent 自动积累 Skill、Cron 定期优化、SQLite 情节记忆,让 AI 从静态工具变成越用越强的"同事"

附:各技术实际首发年份

技术 时间 关键事件
LLM(Transformer) 2017年 Google 发表《Attention Is All You Need》
LLM(GPT 系列) 2018–2020年 GPT-1 → GPT-3,ChatGPT 于 2022年11月爆发
RAG 2020年5月 Facebook AI Research 发表论文,NeurIPS 2020 收录
AI Agent(理论基础) 2022年 Google 发表 ReAct 论文,奠定 LLM 驱动 Agent 的理论基础
Function Call 2023年6月 OpenAI 正式发布 Function Calling API(gpt-4-0613)
AI Agent(工具链爆发) 2023年初–中期 AutoGPT、LangChain 等框架涌现,Agent 进入工程实践
MCP 2024年11月 Anthropic 正式发布 Model Context Protocol 开放标准
Skill 2024–2025年 在 Claude Code 等 Agent 框架中成为标准化工作流模式
Harness Engineering 2024–2025年 LLM 应用进入生产规模化后,工程可靠性成为核心挑战;DeepEval、Promptfoo、LangSmith 等工具链成熟,"AI 工程化"成为热门方向
Anthropic Harness / Managed Agents 2025–2026年 Anthropic 发布 Managed Agents 平台(2026年4月);提出 Session/Harness/Sandbox 三层解耦架构,Planner-Generator-Evaluator 对抗循环,以及"Harness 随模型进化持续减负"的动态哲学;$0.08/session hour,Notion / Sentry / Rakuten 等率先落地
Hermes Agent 2026年4月 Nous Research 发布 v0.9.0(前身 OpenClaw);内置 Skill 自进化(后台 review agent + Cron 优化)、SQLite + FTS5 情节记忆、20+ 模型提供商无锁定、16+ 平台 Gateway,首次将"越用越强"的自主学习能力引入生产级 Agent 框架
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容