智能AI
morning
异构仿真环境中联合强化学习的个性化观察归一化
2026-05-28
1 阅读
Yiran Pang, Zhen Ni, Xiangnan Zhong
arXiv:2605.27385v1 公告类型:新 摘要:联合强化学习 (FedRL) 使多个代理能够协作训练全局策略,而无需共享原始数据,使其成为隐私敏感应用程序的理想选择。然而,FedRL 在异构环境中面临挑战,其中不同的状态转换动态导致不同的输入分布和聚合过程中不平衡的参数更新。因此,本文开发了一种个性化观察归一化(PON)方法,允许每个代理使用不断更新的运行均值和方差来局部归一化原始状态输入。这种设计确保了本地功能的一致扩展,而不会在聚合过程中覆盖跨代理。此外,我们证明,由于本地输入分布不同,跨代理共享标准化参数是无效的,这凸显了个性化统计的必要性。异构 MuJoCo 任务的实验表明,与基线方法相比,我们开发的 PON 加速了训练并实现了卓越的性能。