开发者生态
morning
TycoonLE:用于长期规划的 Jax 强化学习环境
2026-06-13
1 阅读
vrtnis
Tycoon 学习环境 Tycoon 学习环境 (TycoonLE) 是一个强化学习环境,用于以经济为基础的长期规划。代理商在模拟的物流经济中运作,分配资本、建立运输路线、运输货物、管理债务并优化延迟回报。它旨在研究行动合法性、候选人前沿决策界面、融资时机、延迟奖励、程序变化和可重播的审计跟踪。 TycoonLE 使用固定形状的界面。代理在有效的路线、财务和等待候选者中进行选择,使部署与 JAX 转换(例如 jit 、 vmap 和 scan )兼容。重播 UI 使政策可以通过路线选择、货物流量、融资行为、奖励、分数和一段时间内的利润进行检查。 TycoonBench 提供了一份配套基准报告,用于比较 TycoonLE 规划任务上的代理和模型性能: vrtnis.github.io/tycoonbench 。安装 使用 Python 3.11 或 3.12: py -3.12 - m venv .venv .\.venv\Scripts\ python.exe - m pip install - e " .[test] " npm install 快速入门 import jax from tycoonle_jax import TycoonLE env = TycoonLE ( split = "dev" , family = "chain" ) state , timestep = env 。重置 ( jax . random . PRNGKey ( 0 )) 操作 = 时间步长。观察。动作掩码。 argmax () 状态 , 时间步 = env 。步骤 ( state , action ) 导出重播: .\.venv\Scripts\ python.exe Examples\quickstart.py npm run dev 打开浏览器 UI 并加载运行/quickstart/replay.json 。运行测试: .\.venv\Scripts\ python.exe - m pytest npm run build 训练 运行小型 PPO 烟雾列车: .\.venv\Scripts\ python.exe Examples\train_ppo_jax.py --updates 1 -- num - envs 4 -- rollout - length 4 -- update-epochs 1 --hidden -sized 32 引用 如果您发现这项工作有用,请考虑引用:@software { tycoonle ,标题 = { TycoonLE } ,作者 = { TycoonLE 贡献者 } ,年份 = { 2026 } ,url = { https://github.com/vrtnis/tycoon-learning-environment } } 艺术作品鸣谢 TycoonLE 使用来自 OpenGFX 的精灵艺术作品,OpenGFX 是 OpenTTD 的开源图形基础集。