智能AI
morning
刚刚,全球⾸个“事件级预测”具身智能世界模型来了!
2026-05-29
1 阅读
梦瑶
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 刚刚,全球⾸个“事件级预测”具身智能世界模型来了! 梦瑶 2026-05-29 15:02:05 来源: 量子位 从按帧学动作,到按「事件」理解世界 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 让机器人把杯子递过去—— 这个看似简单的任务,对当前的具身大模型来说,却是一场逐帧填空的考试: 预测0.1秒后手在哪、0.2秒后手在哪…… 把一个完整动作切成几十张几乎雷同的画面,让模型一帧一帧去学。 结果,模型记住的是「手指每帧挪几毫米」,而不是「把杯子抓住」这个目标,换个杯子、换张桌子,节奏稍变,立刻翻车!! 刚刚,自变量机器人团队带来全新解法—— 发布全球首个「事件级预测」具身智能世界模型WALL-WM。 WALL-WM把世界模型的预测单位从时间帧换成了 语义事件 : 模型不再问0.1秒后是什么样,而是直接想象抓住杯子那一刻是什么样,跳过中间所有冗余帧,并基于这个想象同步生成抵达它的动作。 由于「事件」本身就是跨场景、跨物体的通用语义抽象,WALL-WM在跨场景泛化上也展现出明显更稳的表现。目前,这一模型已在论文 《WALL-WM: Carving World Action Modeling at the Event Joints》 中发布。 诶,这下好了。 以后小机器人们干活儿,也能更像人类一样抓重点,灵活应对物理世界的各种抓马情况了! 从按帧学动作,到按「事件」理解世界 这几年,主流VLA模型基本都在沿着一条路往前走: 给模型一帧当前画面,再加一句语言指令,让它预测接下来一段 「固定长度」 的动作块。 这个做法当然很工程化,也确实方便训练,但问题在于真实世界的机器人动作,并不会乖乖按照固定时间窗口发生。 比如让机器人抓起一个杯子,它里面至少包含接近、接触、闭合夹爪、提起、移动、放下几个阶段。 每个阶段的物理状态都不一样,接触前和接触后更是完全不同的控制问题。 针对这个bug,自变量机器人在论文中提出了一个非常「反常识」的行业判断—— 文本、视觉、动作这三类信息,其实是天然没办法「完全对齐」的 ……(doge) 论文中提到,文本、视觉、动作在高维空间里有不同的 「流形几何」 ,也有完全不同的 「时间尺度」 。 文本是高层、低熵的语义意图;视觉是连续演化的高维观察;动作则被物理世界强约束,对接触状态、时间精度和微小扰动都极其敏感。 如果直接把三者压进同一个共享空间,预训练表示很容易偏离原本的先验几何!! 所以说,这也是为啥目前行业内很多VLA在真机上视觉-语言-动作对齐的表现,远不如其底座VLM应有的⽔平….. 既然传统VLA问题这么多,自变量团队也重新追问了一个更为根本的问题:机器人到底该按什么单位学会一个动作? 基于这个思路,团队出了 WALL-WM 世界模型,让机器人按event-centric的方式去训练和执行。 所谓的event-centric,简单说就是把机器人任务切在真正有语义、有物理动作变化的「事件边界」上,然后在这些事件数据上进行模型训练。 比如伸手、抓取、抬升、移位、放置,都可以看成一个个围绕动作展开的语义事件。 它能被语言说清楚,也能被视频完整记录,还能落到机器人的动作轨迹上,这样就可以把语言、画面和动作真正串了起来~ WALL-WM泛化能力更强的关键也就在这里:让机器人围绕事件理解世界变化,再把这种理解转成可执行动作。 而这,才是具身智能「世界模型」应有的形态。 WALL-WM的核心链路:先预演,再执行 具体来说,WALL-WM做的不是直接从画面生成动作。 而是先让模型理解「下一个事件会让世界怎么变」,再把这种变化翻译成机器人该执行的轨迹。 背后是一整套从感知到控制的路径重构,自变量团队将其拆成了三层: 第一层,是 事件指令入口 。 其作用很直接,就是告诉模型「下一步要做什么」,比如抓起杯子、放进篮子、把积木摆到指定位置。 第二层,是 事件世界模型 。 模型会围绕这个事件,去预演接下来画面里的变化:物体会怎么动,场景会怎么变,机械臂又该如何参与其中。 第三层,是 多视角时空融合 。 机器人看到的往往不止一个角度,头部相机、腕部相机提供的是不同位置的信息。WALL-WM会把这些视角统一起来,让模型在执行动作之前,先把现场看得更完整。 不仅如此,在这个架构中WALL-WM还用几组关键设计,把这条链路变成了一个尽量保住视频先验、又能长出动作能力的系统。 同⼀个基座,两种推理模式 在执行阶段,WALL-WM不会只生成一段死板的固定动作,而是让同一套模型权重可以跑出两种推理模式。 首先就是 事件模式(Event Mode)。 当上层规划器已经把任务拆好,模型就可以直接根据这个事件描述,输出一段长度可变的动作,这个模式更贴近WALL-WM的核心思想:动作不必被硬切成固定窗口,而是顺着语义事件自然展开。 另一种是 统一模式(Unified mode) 。 当没有外部规划器,机器人需要自己一边看、一边想、一边控制时,VLM会结合当前视觉输入和任务指令,在线生成中间推理,再把结果交给动作模型输出「固定长度」的动作块。 这个模式更适合实时闭环控制,因为它能保持稳定的控制频率。 这两种推理模式的关键在于,其 共享同一套权重 ,执行过程中还能按动作块切换,不需要为了不同场景重新训练模型,所以模型的用法也更灵活。 它既能接在更大的机器人系统后面,专门负责把规划好的事件稳定执行出来,也能自己完成从看懂任务、判断下一步,到生成动作的完整流程。 视频模型和动作模型分工生长 不仅如此,WALL-WM没有直接把视频模型改成动作模型,而是把两条能力「拆开」来长—— 让机器人先 预演世界会怎么变 ,再决定自己该 怎么动 。 具体来说,视频模型会承载互联网视频训练出来的动态先验,负责理解物体怎么动、场景怎么变。 而动作模型从零初始化,专门学习如何把这些视觉变化翻译成机器人轨迹。 两者在每一层做单向耦合:动作流读取视频流的视觉证据,视频流保留原本的动态先验,避免被动作数据过早「带偏」。 这样一来,模型既能守住视频基座已有的世界理解能力,又能让动作能力在大规模训练中持续增长。 而这,正是绝⼤多数VLA在⼤规模训练时做不到的~ 几何感知的多视角融合 大家都知道,现实生活中大多机器人通常不止一个摄像头:一般是顶视看全局,腕部相机看手边细节。 但事实上多视角并不会天然对齐,简单做跨视角注意力,模型很容易把它学成特征混合,看起来相关就连在一起,却未必符合真实空间关系,于是WALL-WM用了两个机制来解决—— 一个是 视锥掩码 。 它会根据相机标定信息,判断两个图像块在三维空间里有没有可能看到同一片区域,物理上对不上的关联,直接从注意力路径里切掉,这样一来,模型跨视角看过去的地方,至少先符合真实世界的几何关系。 另一个是 管状掩码 。 它会随机遮掉某个视角里一段连续的时空区域,让模型不能只靠单一视角内部的时间信息补答案,只能从其他相机里找线索。 一个限制错误连接,一个制造跨视角需求,配合