用于离策略时间差异预测的行为感知辅助校正

摘要

28855v1 Announce Type: new Abstract: Temporal-difference learning with function approximation can be unstable under off-policy sampling。

the and behavior auxiliary aware

2026-05-29 1 阅读约1分钟阅读 Xingguo Chen, Zhiang He, Yuchen Shen, Shangdong Yang, Chao Li, Guang Yang, Wenhao Wang

arXiv:2605.28855v1 公告类型：新摘要：使用函数逼近的时间差分学习在离策略采样下可能不稳定。 TDC 通过辅助协方差校正来稳定离策略 TD，而 TDRC 在单时间尺度递归中进一步正则化这种校正。本文研究了线性预测设置中辅助协方差几何的行为感知替代，这是用于理解值函数逼近的特征空间动态的标准局部模型。我们首先用行为 Bellman 矩阵 (A_\mu) 替换 TDC 辅助矩阵 (C)，得到 BA-TDC，然后对相同的行为感知方程进行正则化以获得 BA-TDRC。这种两步构造将行为感知几何的贡献与正则化的贡献分开。线性分析还为神经网络值近似中出现的辅助几何设计问题提供了一个易于处理的模型，其中特征协方差和时间转移矩阵共同塑造了最后一层校正动态。我们给出了有限状态平均系统公式，在实例化平均系统上证明了 Hurwitz 稳定性条件下的定点保持和几乎确定的收敛性，并通过精确线性误差递归的谱半径比较确定性平均速率。对两种状态反例、贝尔德反例、随机游走和博彦链的实验表明，行为感知替换本身在某些任务上可能非常有益，但正则化对于在更困难的设置中保持稳健的性能是必要的。

订阅66必读