智能AI
morning
您的代理也在老化:已部署系统的代理生命周期工程
2026-05-27
1 阅读
Jianing Zhu, Yeonju Ro, John Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella, Zhangyang Wang
arXiv:2605.26302v1 公告类型:新 摘要:长期存在的人工智能代理越来越多地部署为持久操作系统,但它们仍然像新初始化的模型一样进行评估。第一天的基准测试忽略了一个基本的系统问题:代理在部署后可以保持可靠多长时间?即使模型权重被冻结,代理的有效状态也会不断变化,因为它会压缩交互历史记录、从不断增长的内存存储中检索、更新后修改事实以及进行日常维护。因此,可靠性成为整个代理工具的生命周期属性,而不仅仅是基本模型的快照属性。我们引入了 AgingBench,这是一个用于代理生命周期工程的纵向可靠性基准:不仅测量部署的代理是否退化,还测量退化的形式以及修复的目标位置。 AgingBench 将代理老化分为四种机制:压缩老化、干扰老化、修订老化和维护老化。为了诊断这些故障,AgingBench 使用时间依赖图和配对的反事实探针,为内存管道的写入、检索和利用阶段生成诊断配置文件。在 7 个场景、14 个模型、多种内存策略以及运行者控制和自主代理中,跨越 8 - 200 个会话的约 400 次运行表明代理老化不是一维的:行为测试可以保持干净,而事实精度下降;派生状态跟踪可能会在单个模型中急剧崩溃;根据诊断配置文件的指向,相同的错误答案可能需要不同的修复。这些结果表明,可靠的代理部署需要寿命评估、机制级诊断和阶段性修复,而不仅仅是更强的第一天模型。