在没有语言监督的情况下通过物理交互在世界模型中出现的语义表示

摘要

28865v1 Announce Type: new Abstract: What does a world model learn from physical exploration, without any linguistic supervision。

the world and physical model

2026-05-29 1 阅读约1分钟阅读 Jiayi Fang

arXiv:2605.28865v1 公告类型：新摘要：在没有任何语言监督的情况下，世界模型从物理探索中学到什么？我们认为答案是由一个原则组成的：物理世界的几何结构。在随机体现探索上训练基于 VAE 的世界模型，我们发现其潜在空间发展出反映物理几何的空间语义结构 - 随机初始化编码器的方向精度为 0.677+-0.029 与 0.547，位置 RSA 0.192+-0.047 与随机编码器的 0.029（改进 6.6 倍），这表明训练诱导了超越 CNN 归纳偏差的真正结构组织。在 20 个时间检查点中，预测性能和语义对齐共同提高（Spearman r=-0.61，p=0.004），与共享驱动程序帐户一致。我们通过双重淘汰确认了这一点：标准 KL 正则化（beta = 0.1）迫使编码器远离几何结构，并且预测性能和语义对齐同时崩溃到接近概率（步长为 50,000）——正如共享驱动程序帐户所预测的那样。将 beta 降低到 0.001 可恢复几何访问并同时恢复这两种功能。这些发现将物理世界几何学确立为世界模型表示的组织原则，对基于语义的具体代理的设计具有直接影响。

订阅66必读