合成数据的可验证性比较重要,参考美团这篇论文:EvoCUA
在 EvoCUA 报告中,Verifiable Synthesis Engine(可验证合成引擎) 是其三大核心支柱之一 。该引擎旨在解决计算机使用智能体(CUA)在训练中面临的数据稀缺、奖励黑客(Reward Hacking)以及缺乏精确监督信号等核心痛点 。
以下是该章节的详细介绍:
1. 核心理念:以生成即验证 (Generation-as-Validation)
该引擎不再采用传统的被动数据收集方式,而是转向一种主动的合成范式。其核心逻辑是:在生成一个合成指令 的同时,同步生成一个确定的、可执行的验证器 。
目的:确保奖励信号 源于对最终环境状态的严格校验,从而绕过自然语言匹配中存在的语义模糊性 。
2. 引擎的三阶段架构
该引擎由三个级联模块组成:结构化任务空间构建、代理式双流合成以及严格的质量保证 。
第一阶段:结构化任务空间构建 (Structured Task Space Construction)
为了捕获现实世界计算机使用的复杂性,引擎首先构建了一个多维度的任务空间 :
层次化领域分类 (Hierarchical Domain Taxonomy):将核心桌面应用(如 Web 浏览器、Excel、Word)的各种行为分解为原子能力 。这种分解允许智能体通过重新组合基本技能来泛化到各种复杂场景 。
- 混合资源注入 (Hybrid Resource Injection):
参数化合成:利用代码生成器批量产生 Word、Excel 或 PDF 文档,通过参数化变量(如姓名、价格、日期)确保数值和布局的多样性 。
非参数化注入:引入来自互联网的真实数据(如图像、音频、复杂幻灯片),强迫智能体处理真实文件中的视觉噪声和结构多样性 。
第二阶段:代理式双流合成 (Agentic Dual-Stream Synthesis)
这一阶段采用基于 ReAct 的代理工作流,由一个基础视觉语言模型 (VLM) 担任“任务建筑师” :
指令流 (Instruction stream):根据给定的场景元组(角色、能力、资源)制定自然语言查询 。
验证器流 (Validator stream):同步生成地面真值 (Ground Truth) 和对应的可执行评估代码 。
闭环反馈机制:生成的代码会在真实的沙盒环境中立即运行。如果运行失败(如语法错误或 API 不匹配),错误信息会反馈给模型进行自我修正,直到代码成功运行并通过质量检查 。
第三阶段:严格的质量保证 (Rigorous Quality Assurance)
该阶段通过一系列协议过滤合成的数据对,以消除误报(幻觉成功)、漏报和数据泄露 :
基于一致性的过滤:部署一个参考智能体在沙盒中执行合成任务。只有被沙盒执行、奖励模型和人工抽检三方交叉验证的任务才会被保留 。
三重去重 (Tri-fold decontamination):为了防止数据泄露(即模型在预训练中见过测试基准),执行语义去重、配置去重(剔除应用初始化设置相同的任务)以及验证器去重(确保成功条件不与现有基准脚本重叠) 。
3. 主要贡献与成效
规模化:通过该流水线,研究团队成功将可验证的训练数据扩展到了数万个实例,打破了人工标注数据的瓶颈 。
精准监督:为智能体提供了精确、确定性的监督信号,使其能够通过学习合成轨迹来持续提升能力 。