5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 5秒完成3D场景编辑，北大&港中文&上海AI Lab搞出VGGT-Edit，120倍加速太炸了听雨 2026-05-27 17:01:54 来源：量子位不再绕回2D VGGT-Edit团队投稿量子位 | 公众号 QbitAI 3D世界“会看”了，但还不会“改”。从NeRF到83D Gaussian Splatting，再到VGGT、π³这类前馈式3D重建模型，整个行业的进展速度明显加快——只需几张图片，就能在几秒内重建完整3D场景。但问题也恰恰出在这里。这些模型虽然已经能理解三维世界，却还不会修改三维世界。你可以让它重建一个房间，却很难真正告诉它：把椅子移到窗边，删除中间那张椅子，把灰色皮沙发改成白色长毛沙发。更麻烦的是，一旦涉及复杂编辑，现有方法往往迌速崩採——某些角度里椅子消失了，换个视角椅子又重新出现；明明没改的背景，却跟着一起变形。为应对这一挑战，来自北京大学、香港中文大学、上海AI Lab 、 NTU 等机构的研究团队，提出了一套原生3D编辑框架： VGGT-Edit 。核心思路只有一句话—— 不再绕回2D，而是直接在3D空间里完成编辑。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法，单次编辑仅需约 5秒，最高实现 120倍加速。问题其实一直出在在2D 目前大多数编3D的方法，本质上仍然是“2D思维”——先把场景拆成多弤2D图片，逐张编辑，再重新拼回3D。但由于每个视角都是独立处理的，所以很容易出现：一个视角里椅子已经删掉了；换个角度椅子又重新出现；背景区域跟着一起漂移；物体边缘出现重影和闪烁。 △ 3D编辑方法的比较很多结果看起来更像“在不同角度硬P出来的图”，而不是真正稳定的3D空间。对于机器人、AR/VR、空间智能这些方向来说，这几乎是致命问题——这些场景真正需要的，不是“某一个角度看起来对”，而是整个3D世界始终稳定一致。原生3D编辑，开始从概念走向可用 VGGT-Edit的核心思路非常直接：既然问题来自2D，那就不要再绕回2D 。整个框架建立在VGGT-Like前馈式重建模型之上，继承了其快速、高效的3D表示能力。但有意思的是，团队并没有选择重新生成整个场景，而是提出了一种非常巧妙的机制：残差场预测（Residual Field Prediction）。简单理解就是：模型先保留原始场景稳定的3D结构，然后只学习“哪里需要变化”，例如：椅子往右移动；沙发材质发生变化；删除某个物体；新增一个家具。这些变化，都被表示成了：新场景 = 原场景 + 局部残差变化这个设计有个非常重要的好处——因为大部分区域本来就不需要变化，所以模型不用重新“生成整个世界”，只需修改局部，结果就是没改动的背景区域会非常稳定。这也是VGGT-Edit和很多现有方法最明显的区别之一。文本语义，第一次真正开始“对齐”3D空间研究团队发现，如果只是简单把一句文本输入模型，很容易出现一种情况——模型知道“你想改什么”，但不知道“该改哪里”。为了解决这个问题，VGGT-Edit设计了一套关键机制：深度同步文本注入（Depth-Synchronized Text Injection）本质上可以理解成让文本语义和3D空间特征，在同一个深度层级里持续同步。传统方法通常只在前面注入一次文本信息，但VGGT-Edit会在多个关键层持续融合文本语义，这样模型在整个3D生成过程中，始终知道：当前应该修改哪个区域；修改目标是什么；空间位置在哪里。与此同时，团队还专门设计了一套“ 视角重要性加权 ”——因为并不是所有视角都同样可靠，有些角度可能被遁挡，有些视角只能看到半个物体。 VGGT-Edit会自动判断哪个视角更值得信任，最终让多视角编辑结果更加稳定。一个真正面向“3D编辑”的编辑头除了整体框架之外，VGGT-Edit还有一个非常关键的部分—— 专门面向3D编辑任务设计的编辑头。研究团队发现，对于VGGT-Like模型来说，原本的重建Head更关注“如何恢复场景”，但3D编辑真正需要解决的问题是：如何在保持整体稳定的情况下，只修改局部区域。因此，VGGT-Edit额外设计了一套编辑分支，专门预测场景中的局部变化。这个编辑Head会直接作用于3D表示空间，并输出对应的残差场变化。本质上，它学习的是：哪些区域应该保持不变；哪些区域需要发生编辑；编辑后如何保持多视角一致。相比直接重新生成整个场景，这种方式更加稳定，也更加高效——这也是让VGGT-Like前馈重建模型具有编辑能力的关键一步。一个10万规模的数据集，专门训练“3D编辑” 为了训练VGGT-Edit，团队专门构建了一个新3D编辑数据集 DeltaScene ，规模接近10万组，覆盖客厅、办公室、住宅、商业空间等多种场景。 △ DeltaScene数据集概述更重要的是，整个数据生成流程高度自动化。团队通过利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤，最终得到真正满足“多视角几何一致”的训练数据。 △ DeltaScene数据构造流程对于原生3D编辑来说，这一步非常关键——模型真正需要学习的，不只是“图像变化”，而是同一个编辑，在不同视角下如何始终保持空间一致。 3D编辑，第一次开始接近实时交互从结果来看，这条路线确实有效。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。尤其是在添加家具、调整位置、修改材质这些复杂任务中，很多传统方法仍然会出现明显的“贴图感”和几何漂移，但VGGT-Edit生成的结果，会明显更像一个真实稳定的3D空间。 △ 不同3D编辑任务的定性比较更关键的是速度——论文中，VGGT-Edit单次编辑只需约 5秒，相比很多需要长时间优化的传统方法，最高可实现 120倍加速。这意味着编3D第一次真正开始接近实时交互。对于机器人、数字孪生、AR/VR等方向来说，这种变化非常重要——只有当编辑速度足够快，3D世界才真正可能变成“可交互”的世界。 △ 在DeltaScene数据集上的定量结果模型开始真正理解“空间变化” 论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。” 结果模型依然成功完成了编辑。 △ 对未见过的指令进行泛化这说明VGGT-Edit学到的，并不只是固定模板，它真正开始理解文本语义如何映射到3D空间变化。而这件事，可能比“会生成3D”本身更重要。因为对于空间智能来说，未来真正关键的能力，也许不是“生成一个世界”，而是能否像人一样，自由、稳定、实时地修改这个世界。 VGGT-Edit，正在把这件