刚刚，全球⾸个“事件级预测”具身智能世界模型来了！

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 刚刚，全球⾸个“事件级预测”具身智能世界模型来了！梦瑶 2026-05-29 15:02:05 来源：量子位从按帧学动作，到按「事件」理解世界梦瑶发自凹非寺量子位 | 公众号 QbitAI 让机器人把杯子递过去—— 这个看似简单的任务，对当前的具身大模型来说，却是一场逐帧填空的考试：预测0.1秒后手在哪、0.2秒后手在哪…… 把一个完整动作切成几十张几乎雷同的画面，让模型一帧一帧去学。结果，模型记住的是「手指每帧挪几毫米」，而不是「把杯子抓住」这个目标，换个杯子、换张桌子，节奏稍变，立刻翻车！！刚刚，自变量机器人团队带来全新解法—— 发布全球首个「事件级预测」具身智能世界模型WALL-WM。 WALL-WM把世界模型的预测单位从时间帧换成了语义事件：模型不再问0.1秒后是什么样，而是直接想象抓住杯子那一刻是什么样，跳过中间所有冗余帧，并基于这个想象同步生成抵达它的动作。由于「事件」本身就是跨场景、跨物体的通用语义抽象，WALL-WM在跨场景泛化上也展现出明显更稳的表现。目前，这一模型已在论文《WALL-WM: Carving World Action Modeling at the Event Joints》中发布。诶，这下好了。以后小机器人们干活儿，也能更像人类一样抓重点，灵活应对物理世界的各种抓马情况了！从按帧学动作，到按「事件」理解世界这几年，主流VLA模型基本都在沿着一条路往前走：给模型一帧当前画面，再加一句语言指令，让它预测接下来一段「固定长度」的动作块。这个做法当然很工程化，也确实方便训练，但问题在于真实世界的机器人动作，并不会乖乖按照固定时间窗口发生。比如让机器人抓起一个杯子，它里面至少包含接近、接触、闭合夹爪、提起、移动、放下几个阶段。每个阶段的物理状态都不一样，接触前和接触后更是完全不同的控制问题。针对这个bug，自变量机器人在论文中提出了一个非常「反常识」的行业判断—— 文本、视觉、动作这三类信息，其实是天然没办法「完全对齐」的 ……（doge）论文中提到，文本、视觉、动作在高维空间里有不同的「流形几何」，也有完全不同的「时间尺度」。文本是高层、低熵的语义意图；视觉是连续演化的高维观察；动作则被物理世界强约束，对接触状态、时间精度和微小扰动都极其敏感。如果直接把三者压进同一个共享空间，预训练表示很容易偏离原本的先验几何！！所以说，这也是为啥目前行业内很多VLA在真机上视觉-语言-动作对齐的表现，远不如其底座VLM应有的⽔平….. 既然传统VLA问题这么多，自变量团队也重新追问了一个更为根本的问题：机器人到底该按什么单位学会一个动作？基于这个思路，团队出了 WALL-WM 世界模型，让机器人按event-centric的方式去训练和执行。所谓的event-centric，简单说就是把机器人任务切在真正有语义、有物理动作变化的「事件边界」上，然后在这些事件数据上进行模型训练。比如伸手、抓取、抬升、移位、放置，都可以看成一个个围绕动作展开的语义事件。它能被语言说清楚，也能被视频完整记录，还能落到机器人的动作轨迹上，这样就可以把语言、画面和动作真正串了起来～ WALL-WM泛化能力更强的关键也就在这里：让机器人围绕事件理解世界变化，再把这种理解转成可执行动作。而这，才是具身智能「世界模型」应有的形态。 WALL-WM的核心链路：先预演，再执行具体来说，WALL-WM做的不是直接从画面生成动作。而是先让模型理解「下一个事件会让世界怎么变」，再把这种变化翻译成机器人该执行的轨迹。背后是一整套从感知到控制的路径重构，自变量团队将其拆成了三层：第一层，是事件指令入口。其作用很直接，就是告诉模型「下一步要做什么」，比如抓起杯子、放进篮子、把积木摆到指定位置。第二层，是事件世界模型。模型会围绕这个事件，去预演接下来画面里的变化：物体会怎么动，场景会怎么变，机械臂又该如何参与其中。第三层，是多视角时空融合。机器人看到的往往不止一个角度，头部相机、腕部相机提供的是不同位置的信息。WALL-WM会把这些视角统一起来，让模型在执行动作之前，先把现场看得更完整。不仅如此，在这个架构中WALL-WM还用几组关键设计，把这条链路变成了一个尽量保住视频先验、又能长出动作能力的系统。同⼀个基座，两种推理模式在执行阶段，WALL-WM不会只生成一段死板的固定动作，而是让同一套模型权重可以跑出两种推理模式。首先就是事件模式（Event Mode）。当上层规划器已经把任务拆好，模型就可以直接根据这个事件描述，输出一段长度可变的动作，这个模式更贴近WALL-WM的核心思想：动作不必被硬切成固定窗口，而是顺着语义事件自然展开。另一种是统一模式（Unified mode）。当没有外部规划器，机器人需要自己一边看、一边想、一边控制时，VLM会结合当前视觉输入和任务指令，在线生成中间推理，再把结果交给动作模型输出「固定长度」的动作块。这个模式更适合实时闭环控制，因为它能保持稳定的控制频率。这两种推理模式的关键在于，其共享同一套权重，执行过程中还能按动作块切换，不需要为了不同场景重新训练模型，所以模型的用法也更灵活。它既能接在更大的机器人系统后面，专门负责把规划好的事件稳定执行出来，也能自己完成从看懂任务、判断下一步，到生成动作的完整流程。视频模型和动作模型分工生长不仅如此，WALL-WM没有直接把视频模型改成动作模型，而是把两条能力「拆开」来长—— 让机器人先预演世界会怎么变，再决定自己该怎么动。具体来说，视频模型会承载互联网视频训练出来的动态先验，负责理解物体怎么动、场景怎么变。而动作模型从零初始化，专门学习如何把这些视觉变化翻译成机器人轨迹。两者在每一层做单向耦合：动作流读取视频流的视觉证据，视频流保留原本的动态先验，避免被动作数据过早「带偏」。这样一来，模型既能守住视频基座已有的世界理解能力，又能让动作能力在大规模训练中持续增长。而这，正是绝⼤多数VLA在⼤规模训练时做不到的～几何感知的多视角融合大家都知道，现实生活中大多机器人通常不止一个摄像头：一般是顶视看全局，腕部相机看手边细节。但事实上多视角并不会天然对齐，简单做跨视角注意力，模型很容易把它学成特征混合，看起来相关就连在一起，却未必符合真实空间关系，于是WALL-WM用了两个机制来解决—— 一个是视锥掩码。它会根据相机标定信息，判断两个图像块在三维空间里有没有可能看到同一片区域，物理上对不上的关联，直接从注意力路径里切掉，这样一来，模型跨视角看过去的地方，至少先符合真实世界的几何关系。另一个是管状掩码。它会随机遮掉某个视角里一段连续的时空区域，让模型不能只靠单一视角内部的时间信息补答案，只能从其他相机里找线索。一个限制错误连接，一个制造跨视角需求，配合

订阅66必读