您的代理也在老化：已部署系统的代理生命周期工程

arXiv:2605.26302v1 公告类型：新摘要：长期存在的人工智能代理越来越多地部署为持久操作系统，但它们仍然像新初始化的模型一样进行评估。第一天的基准测试忽略了一个基本的系统问题：代理在部署后可以保持可靠多长时间？即使模型权重被冻结，代理的有效状态也会不断变化，因为它会压缩交互历史记录、从不断增长的内存存储中检索、更新后修改事实以及进行日常维护。因此，可靠性成为整个代理工具的生命周期属性，而不仅仅是基本模型的快照属性。我们引入了 AgingBench，这是一个用于代理生命周期工程的纵向可靠性基准：不仅测量部署的代理是否退化，还测量退化的形式以及修复的目标位置。 AgingBench 将代理老化分为四种机制：压缩老化、干扰老化、修订老化和维护老化。为了诊断这些故障，AgingBench 使用时间依赖图和配对的反事实探针，为内存管道的写入、检索和利用阶段生成诊断配置文件。在 7 个场景、14 个模型、多种内存策略以及运行者控制和自主代理中，跨越 8 - 200 个会话的约 400 次运行表明代理老化不是一维的：行为测试可以保持干净，而事实精度下降；派生状态跟踪可能会在单个模型中急剧崩溃；根据诊断配置文件的指向，相同的错误答案可能需要不同的修复。这些结果表明，可靠的代理部署需要寿命评估、机制级诊断和阶段性修复，而不仅仅是更强的第一天模型。