空间智能初探：重建与生成的双路径实践

在当前人工智能技术快速演进的大背景下，模型规模持续扩大，智能形态正从离身智能向具身智能迈进。本文整理自北京科技大学副教授彭君然博士在 QCon 全球软件开发大会 2026 北京站的演讲分享《空间智能初探：重建与生成的双路径实践》。本次分享系统梳理了彭君然团队过去三年间在世界模型领域的探索历程。从2023年开始聚焦世界模型这一概念，团队几乎尝试了所有与之沾边的技术路径，逐步构建起从三维场景重建到四维体视频生成的完整技术栈。本文将沿着三条核心技术路线的演进脉络，深入解析大规模场景重建、图形学引擎智能内容生成、视频生成辅助重建，以及最终的四维世界模型生成系统的设计思想、实现细节与关键实验结果。以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。人工智能的现状与未来过去几年，人工智能的发展呈现出几个清晰的技术趋势。一方面，模型规模从小变大，参数量级持续攀升，能力边界不断扩展。另一方面，AI的核心任务从感知逐步转向生成，从识别图像中的物体发展到直接创造新的视觉内容。与此同时，智能的形态也开始从离身智能转向具身智能，从纯粹的信息处理走向物理世界的交互。在我们看来，由于发展速度太快，业界必须直接思考人工智能的终局是什么，或者说人类生产力革命的终局是什么。我们与大量同行、投资机构在半年间进行了广泛讨论，大家达成了一项共识：这很可能就是最后一次生产力革命。既然是最后一次，定义清楚终极形态就变得至关重要。那么，这个终局的图景是什么样的？我们的判断是：语言智能或者说AI的生成能力一定会在五到十年内将虚拟空间中一切能够替代的事情替代掉。当虚拟空间被完全覆盖之后，下一步必然会辐射到物理空间。即便我们不确定辐射到物理空间需要多长时间，保守估计五十年之后物理空间大概率也会被AI全面覆盖。这个趋势一定会发生。然而，在这个趋势中存在一个关键环节：虽然大语言模型具备了很高的智能能力，但它“只会说不会做”，缺乏从认知到物理执行的闭环。这里我们强调的不是狭义的具身智能，而是更广义的闭环。我们对具身智能的定义是从observation生成action，但完整的智能系统还需要一个反向的通道——如何从action去预知或推演尚未发生的observation。这正是世界模型要发挥的核心作用。世界模型：机遇与挑战世界模型这一概念在学术史上由来已久。早在1945年，心理学领域就出现了关于从行动推演观测结果的思想，但当时停留在虚拟层面，没有具象化。直到最近几年，一系列标志性技术成果陆续浮现：2023年出现的Sora、Google的Genie Three，以及李飞飞团队World Lab推出的Marble，逐步将世界模型的概念从抽象推向具象。如果我们将世界模型的功能定位为提供从action到observation的闭环，那么它的本质就是从认知到物理世界的连接。基于这一定位，我们对理想世界模型提出了三项功能期待：第一，它应当能够推演未来，包含因果知识，而不是简单的像素预测；第二，它不能仅仅是视觉上的因果关系，必须内化大量物理学规律，能够理解重力、摩擦力、碰撞等物理现象；第三，它的表现形式应当是丰富的，因为世界模型本身是抽象的存在，可以借助2D图像去观测，也可以进行物理层面的交互。理想的世界模型应该是一个丰富的存在，能够与我们每一种观测和交互形式无缝对接。当我们在2023年底开始系统性地思考世界模型的实现路径时，业界刚刚出现了一项重要技术——3D Gaussian Splatting。这篇发表于2023年中的论文提出了一种高质量、显式表达的三维重建方法，在当时引起了广泛关注。我们判断，无论三维重建能否预测未来，它起码提供了一种能够“摸得着”的世界表达形式。李飞飞团队的Marble虽然最终呈现形式是漫游式的场景浏览，但其底层实际上直接采用了3D Gaussian作为显式表达的基元。通过多视图图像输入，系统就能重建出一个完整的场景。但这条路径存在一个根本性问题：虽然拥有显式的几何表达，物体在视觉上可以触碰，但它完全“动不了”，无法进行推演和物理交互，因为场景中的所有物体都被粘连在一起，缺乏独立的物理实体属性。这是第一条技术路线。第二条路线来自游戏产业和图形学领域多年积累的经验。物理引擎和图形学引擎，比如Unity、Maya、ZBrush，一直支撑着图形学工程师和游戏美术师创作各种游戏世界和虚拟空间。甚至在航空航天领域，动力学仿真也依赖工程师借助类似工具完成。在2023年这个时间节点，这或许也是一条通往世界模型的途径——通过程序化生成的方式，借助简单的语言描述或参数化输入，就能生成各类资产，同时赋予它们符合物理学规律的行为能力。这条路线最大的优势在于输出结果与工业管线天然兼容，可以直接导入物理仿真引擎进行交互测试。第三条路线则是近几年基于视频生成的路径，以Sora为代表的一系列工作。这条路线的问题是“看得见但摸不着”，而且很难保持几何上的一致性和时间上的一致性。所谓几何一致性，是指一个物体从某个方向走过去看到的样子，退回来之后应该保持一致；从正面看到的形态和从侧面渲染出来的结果不能产生明显的偏差。所谓时间一致性，是指从一个位置往前走五步看到的内容，退回来时应当与之前一致。但这些基于视频生成的方法归根结底仍然是视频生成的逻辑，缺乏任何几何约束来维持时空一致性。当时业界并不知道最终解决方案是什么，我们决定三条路线齐头并进，团队也确实在每条路径上都进行了深入的研判和探索。三维重建在大规模场景重构这条路径上，我们率先开展了业界最早的大规模场景重建工作。到现在，几乎所有城市级大规模场景重建的benchmark和baseline都建立在我们的工作基础之上。我们的核心思路是：如何通过无人机飞一圈、拍摄两百多张照片，就将一个城市以显式模型的方式完整建模出来。这个过程面临巨大的计算挑战，存在大量冗余运算和内存爆炸的问题。我们通过LOD等多层次细节机制，构建出大规模场景重建的工程框架。用户只需要输入多视图的observation数据，系统就能输出显式的场景表达，支持自由漫游。但从终局视角来看，这仅仅是在三维高斯路径上迈出的一小步，距离真正的世界模型还非常遥远。这直接推动了我们的下一项工作——三维高斯V2版本。在3D Gaussian Splatting的原始表达中，存在一个根本性的设计取向问题：它是为渲染而存在的，是为视觉质量而存在的。它的目标是在新视角下呈现出逼真的视觉效果，追求的是渲染质量的最大化。但它的显式表达实际上非常模糊。当观察者拉近视角时，会看到大量模糊的椭球状高斯体，这些高斯体在视觉上可能与真实物理世界存在很大差距，更不用说进行物理交互了。因此我们开始思考，能否仅通过多视图图像这样的视觉信息，就呈现出与真实世界高度近似的几何表达。为此，我们在训练过程中引入了大量的normal map约束以及物理和几何层面的约束，成功将几何结构优化到相当理想的水平。以操场场景为例，我们重建出的几何结构非常规整，地面平整度极高。而对比其他方法，无论是出现各种artifact还是几何扭曲，差异都非常明显。在几何质量大幅提升的前提下，渲染质量依然得到了很好的保持。但这仍然不够。因为我们思考的是终局场景，不仅要覆盖城市规模的重建，还要走向能够交互