Big 2 不完全信息下的自对弈强化学习

摘要

28863v1 Announce Type: new Abstract: Imperfect-information multiplayer games test whether agents can act under hidden information, sparse rewards, and non-stationary opponents。

and information Big that self

2026-05-29 1 阅读约1分钟阅读 Aalok Patwa

arXiv:2605.28863v1 公告类型：新摘要：不完全信息多人游戏测试智能体是否可以在隐藏信息、稀疏奖励和非平稳对手下行动。我们在 Big 2（一款四人不完美信息纸牌游戏）中研究了这些挑战。我们为 Big 2 开发了一个自我博弈的 RL 框架，可以在策略梯度代理和价值逼近代理之间进行受控比较。在通用环境、输入表示、训练预算和评估协议下，PPO 在对抗随机、贪婪和启发式 Big 2 对手时优于蒙特卡洛 Q 近似、SARSA 和 Q 学习。我们进一步发现，适度的熵正则化通过防止策略变得过于确定性来改善 PPO，并且当前策略自我对弈提供了比检查点自我对弈或固定对手训练更强大的有限预算课程。总之，这些结果表明，Big 2 是一种有用的受控设置，可用于研究不完美信息、多人交互、延迟奖励和可变动作集下的深度强化学习。

订阅66必读