观测云 AI Agent 观测：跨框架的统一 Agent 行为观测层

观测云 AI Agent 可观测正式发布，已支持 OpenClaw，近期将支持 Hermes、Claude Code 与 Codex。

01｜传统 APM 对 Agent 失效

Agent 的核心执行单元不是 HTTP 请求，是推理链。

一次 OpenClaw 任务可能包含：意图解析、权限校验、技能调度、模型推理、工具执行、子 Agent 委派、结果汇总。传统 APM 能看到请求，却看不透这条推理链中间发生了什么。

更致命的是成本。微服务的资源消耗相对固定，Agent 的 Token 消耗在同一功能下可能波动十倍。没有细粒度追踪，等于把真金白银交给消费不可控的自动化系统。

Agent 可观测性必须回答：

- 推理链每一步在做什么，耗时多少？

- 调用了哪些工具，成功了吗？

- 哪个模型在哪个环节被调用，Token 烧了多少？

- 是否触发安全策略，内容是否合规？

- 子 Agent 如何被父 Agent 委派和协调？

这些观测缺一不可。

02｜观测云方案：基于 OpenTelemetry 的端到端追踪

观测云采用 openclaw-otel-plugin → DataKit → 观测云平台的插件化无侵入架构。

Agent 侧安装插件、配置环境变量即可上报，无需改业务代码。

Session + Trace 双维度

Session 列表聚合一次完整用户交互：起止时间、最近对话意图、Trace 数量、Token 消耗总量、风险事件数、告警等级。配合时间轴状态分布图，直接定位异常活跃时段和重试高发区间。

点进 Session 详情，Session Trace 瀑布图铺开展示完整执行链路：意图分类、Prompt 格式化、模型请求、检索增强、工具调用、结果输出。每个 Span 的耗时、Token 数、状态、Input/Output 内容全部可见。

Trace 列表提供单次执行级视角。按 Trace ID、Agent 名称、风险等级、Token 区间筛选。异常、高危执行一眼定位。

成本归因：模型与工具的财务显微镜

Session 详情调用分析页通过饼图展示模型调用占比与工具执行占比。gim-4.7 吃掉多少 Token？rerank 是否被过度调用？文件读取工具是否耗时过长？外部 API 是否成为瓶颈？

风险审计

Trace 详情内置风险事件追踪，覆盖内容策略校验、敏感词过滤、权限越界。每条风险事件关联具体 Span ID、等级、规则编号。

工具执行记录表精确到每一次调用：时间、Span ID、Tool 名称、类型、目标/命令、耗时、状态、风险等级。

Agent 接触生产数据时，可观测性就是合规基础设施。

接入

控制台提供 Agent 监测应用与 LLM 监测应用两种创建路径。OpenClaw 三步完成：安装插件、修改配置文件、重启验证。

右侧表单自动生成应用名称、ID、服务地址、Client Token。Langfuse 用户可通过兼容路径接入。

03｜生态：跨框架的统一观测层

观测云正在把 Agent 运行时拉到同一张观测网里。

选择 OpenTelemetry 作为底座，是因为 Agent 生态正在碎片化：OpenClaw、Hermes、LangChain、CrewAI 等框架并行演进。OTel 避免为每个框架重复写适配器，也让数据可迁移，保护架构安全边际。

更重要的是，OTel 与基础设施 Trace 天然关联，可以打通 Agent 与微服务之间的观测断层。

**OpenClaw（已发布）**

网关架构与插件体系让 OTel 上报极为干净，单实例或多 Worker 集群均可完整捕获 Session 上下文与分布式追踪。

**Hermes（即将接入）**

Hermes 的差异化在于自进化学习闭环：根据历史执行自动生成 Skills、优化 Prompt。观测云正与社区协作，将记忆层变更和 Skills 生成事件纳入 Trace，追踪它的 Skills 从哪次经验演化而来。

**Claude Code 与 Codex（即将接入）**

Claude Code 已原生支持 OTel，输出 Token 用量、成本估算、工具活动；Codex CLI 支持 OTel opt-in。观测云将编码 Agent 数据与传统微服务 Trace 统一关联，实现 Agent 决策 → API 调用 → 数据库查询的完整因果链。

04｜结语：Agent 时代，先让它可被信任

2026 年的共识：Agent 的能力差距在缩小，可靠性差距在放大。

构建 Agent 变得简单，信任 Agent 变得困难。

观测云 AI Agent 可观测通过 OpenTelemetry 标准、Session-Trace 双维视角、模型/工具成本归因、风险审计，以及覆盖 OpenClaw 及即将支持的 Hermes、Claude Code、Codex 的跨框架生态，让 Agent 的每一次思考、每一个动作、每一分钱消耗全部可见。

Agent 时代已经来了，立刻建立统一的跨框架 AI Agent 观测层。

登录观测云控制台，进入「Agent 监测」创建第一个 OpenClaw 监测应用。Hermes、Claude Code、Codex 接入支持请联系解决方案团队。

观测云 AI Agent 观测：跨框架的统一 Agent 行为观测层