$E^3$-Agent：用于边缘生成推理资源管理的可执行且不断发展的代理

摘要

arXiv:2605.27428v1 Announce Type: new Abstract: Edge deployments of generative inference increasingly face two practical realities: per-device per-model performance is often unknown at deployment time

and device Agent model time

2026-05-28 1 阅读约1分钟阅读 Rui Bao, Yaping Sun, Zhiyong Chen, Feng Yang, Meixia Tao, Nan Li, Wenjun Zhang

arXiv:2605.27428v1 公告类型：新摘要：生成推理的边缘部署日益面临两个实际现实：每个设备每个模型的性能在部署时通常是未知的，并且由于用户驱动的语义事件、后台负载和设备搅动而导致性能不稳定。因此，在固定机制下离线调整的资源管理器可能会变得脆弱且维护成本高昂。本文提出了 $E^3$-Agent，这是一种用于边缘人工智能生成内容 (AIGC) 资源管理的可执行且不断发展的代理。 $E^3$-Agent 将做出毫秒级调度决策的快速路径路由器与慢速路径、事件驱动的大型语言模型 (LLM) 元控制器分开，该元控制器通过工具接口公开的小型显式控制界面（包括风险门控、路由器配置和快速性能校准）来缓解机制转变。代理从执行反馈中在线学习，并不断适应未知且随时间变化的服务时间映射。我们在由 MLPerf 派生的设备模型测量先验驱动的离散事件模拟器中评估 $E^3$-Agent，涵盖冷启动预热和三个动态机制：语义动力学、设备流失和隐藏漂移。在动态场景下，$E^3$-Agent 与最佳静态基线相比，平均延迟降低了 65%-73%，与用于评估的在线全信息 Oracle 的差距在 7%-10% 以内，并有效抑制了语义退化下的卡顿率。

订阅66必读