智能AI
morning
锚点:减轻代理基准生成中的工件漂移
2026-05-27
1 阅读
Maksim Ivanov, Abhijay Rana
arXiv:2605.26321v1 公告类型:新 摘要:人工智能代理开始完成有价值的、长期的业务运营任务,但企业工作的培训和评估环境仍然难以平衡现实性、可验证性和规模。环境和任务创建经常遭受我们称为工件漂移的故障模式:当指令、环境、预言机和验证器是由松散耦合的流程创建时,它们经常在任务需求上存在分歧,从而产生无法解决、可奖励破解或不一致的环境。我们引入了 Anchor,这是一个任务生成管道,它将领域专家的业务工作流程规范形式化为约束优化程序。根据单个参数规范,管道联合生成自然语言指令、环境配置、求解器认证的地面实况解决方案和基于状态的验证器。使用 Anchor,更改参数会产生具有受控难度和已知最佳解决方案的新任务,从而产生与线束无关的环境,其回报仅取决于最终状态业务的正确性。我们应用 Anchor 来生成 ERP-Bench:生产级 ERP 系统中涵盖采购和制造工作流程的 300 项长期任务的基准。我们发现生成参数可以预测实现的难度,并且前沿模型在 26.1% 的试验中满足明确的任务约束,但仅在 17.4% 的试验中达到完全最优的解决方案。总的来说,我们表明 Anchor 和 ERP-Bench 为构建具有经济价值的代理工作的可审计评估环境提供了具体的方法。我们在 erpbench.ai 上发布了任务生成器和 ERP-Bench 数据集