行为诱导的 Mirror-Prox 时间差异学习可实现更快的离策略预测

摘要

arXiv:2605.28849v1 Announce Type: new Abstract: Gradient temporal-difference methods provide stable off-policy prediction with linear function approximation, but their practical performance is strongl

the metric behavior and policy

2026-05-29 1 阅读约1分钟阅读 Xingguo Chen, Yuchen Shen, Shangdong Yang, Chao Li, Guang Yang, Wenhao Wang

arXiv:2605.28849v1 公告类型：新摘要：梯度时差方法通过线性函数逼近提供稳定的离策略预测，但其实际性能受到辅助变量度量引起的几何形状的强烈影响。现有的 Mirror-Prox TD 方法通常使用特征协方差度量，而混合 TD 方法表明行为策略转换信息可以提供信息更丰富的更新几何。本文提出了一种行为诱导的 Mirror-Prox 时间差异方法，称为 STHTD-MP，该方法用行为策略 Bellman 矩阵的对称部分代替原始对偶鞍点公式中的协方差度量。该方法保持原始变量和辅助变量的单一学习率，并对生成的混合鞍点算子应用 Mirror-Prox 预测校正步骤。我们在标准随机近似假设下提供了固定策略线性预测的形式收敛分析：行为诱导度量是正定的，联合均值系统是 Hurwitz，有界性遵循 Lyapunov 论证，随机递归通过 ODE 方法收敛。我们进一步基于确定性 Mirror-Prox 误差矩阵的谱半径推导了投影预言机遍历间隙界限以及与 GTD2-MP 的精确均值算子比较。分析表明，当行为诱导度量改进鞍点几何时，STHTD-MP 可以具有比 GTD2-MP 更小的平均收缩因子。对两种状态、随机游走和博彦链基准的精确数值均值算子分析支持这一条件，而贝尔德的反例被认为是严格假设失败的奇异边界情况。

订阅66必读