Agent合成数据

合成数据的可验证性比较重要，参考美团这篇论文：EvoCUA

在 EvoCUA 报告中，Verifiable Synthesis Engine（可验证合成引擎） 是其三大核心支柱之一。该引擎旨在解决计算机使用智能体（CUA）在训练中面临的数据稀缺、奖励黑客（Reward Hacking）以及缺乏精确监督信号等核心痛点。

以下是该章节的详细介绍：

该引擎不再采用传统的被动数据收集方式，而是转向一种主动的合成范式。其核心逻辑是：在生成一个合成指令的同时，同步生成一个确定的、可执行的验证器。

目的：确保奖励信号源于对最终环境状态的严格校验，从而绕过自然语言匹配中存在的语义模糊性。

该引擎由三个级联模块组成：结构化任务空间构建、代理式双流合成以及严格的质量保证。

为了捕获现实世界计算机使用的复杂性，引擎首先构建了一个多维度的任务空间：

层次化领域分类 (Hierarchical Domain Taxonomy)：将核心桌面应用（如 Web 浏览器、Excel、Word）的各种行为分解为原子能力 。这种分解允许智能体通过重新组合基本技能来泛化到各种复杂场景。

参数化合成：利用代码生成器批量产生 Word、Excel 或 PDF 文档，通过参数化变量（如姓名、价格、日期）确保数值和布局的多样性。

非参数化注入：引入来自互联网的真实数据（如图像、音频、复杂幻灯片），强迫智能体处理真实文件中的视觉噪声和结构多样性。

这一阶段采用基于 ReAct 的代理工作流，由一个基础视觉语言模型 (VLM) 担任“任务建筑师” ：

指令流 (Instruction stream)：根据给定的场景元组（角色、能力、资源）制定自然语言查询。

验证器流 (Validator stream)：同步生成地面真值 (Ground Truth) 和对应的可执行评估代码 。

闭环反馈机制：生成的代码会在真实的沙盒环境中立即运行。如果运行失败（如语法错误或 API 不匹配），错误信息会反馈给模型进行自我修正，直到代码成功运行并通过质量检查。

该阶段通过一系列协议过滤合成的数据对，以消除误报（幻觉成功）、漏报和数据泄露：

基于一致性的过滤：部署一个参考智能体在沙盒中执行合成任务。只有被沙盒执行、奖励模型和人工抽检三方交叉验证的任务才会被保留。

三重去重 (Tri-fold decontamination)：为了防止数据泄露（即模型在预训练中见过测试基准），执行语义去重、配置去重（剔除应用初始化设置相同的任务）以及验证器去重（确保成功条件不与现有基准脚本重叠）。

规模化：通过该流水线，研究团队成功将可验证的训练数据扩展到了数万个实例，打破了人工标注数据的瓶颈。

精准监督：为智能体提供了精确、确定性的监督信号，使其能够通过学习合成轨迹来持续提升能力。