智能AI morning

从一张午餐桌到无限宇宙,李飞飞押注AI的下一个维度

2026-05-27 1 阅读 硅谷Tech news
500万年 ,这是人类语言在进化史上的年龄。 5.4亿年 ,这是视觉和空间感知催生 寒武纪 生命大爆发的起点。 在硅谷几乎所有顶级实验室都在卷语言模型的2025和2026年,斯坦福大学教授、World Labs创始人李飞飞反复抛出一个让行业不得不抬头的问题:如果AI只会说话和看图片,它永远不会真正“理解”这个世界。 她在三次关键访谈中,包括2025年6月的a16z Podcast、2026年2月的 思科 AI峰会(Cisco AI Summit),以及2026年5月22日发布、长达1小时19分钟的Lenny's Podcast深度对话,系统阐述了一个正在被加速验证的判断:空间智能(Spatial Intelligence),才是AI的下一个前沿。 其中a16z对话中“创造无限的宇宙”“生活在多元宇宙中”的表述,以及Lenny's Podcast中“世界模型才是下一个前沿”“AGI更像营销术语”等观点,最近在X平台上再度被大量转发。 “我们缺一个世界模型” 据a16z合伙人Martin Casado回忆,在硅谷的一次午餐会上,满桌AI从业者在兴奋地谈论大语言模型。李飞飞坐在餐桌另一头,突然转头问他: “你知道我们缺什么吗?我们缺一个世界模型。” Casado是World Labs的早期投资人,也是李飞飞在斯坦福时期就结识的老友。他回忆那一刻时说,“一切都对上了”。他当时刚从大量图像领域的投资中独立得出类似结论:语言不是故事的终点。 但李飞飞对这个问题的思考远比大多数人更久远。 2024年4月,她在TED大会上发表了一场15分钟的演讲,用进化论做了破题:5.4亿年前三叶虫的出现,第一次让生命“看见”了世界。视觉的诞生引爆了智能的演化竞赛,神经系统开始发育,动物变得活跃,智能由此萌芽。而语言,不过是这场漫长竞赛中非常晚近的产物。 这个判断在三次访谈中被反复强化。在思科AI峰会上,她的表述更加直接: “语言的历史大概只有50万年。但在15亿年前,动物就开始感知光线并触摸环境。在真实的3D、4D物理世界中进行理解、推理、交互和导航的能力是基础性的,与语言智能同样重要。” 李飞飞并非否定语言智能的价值。她的核心论点是:语言在本质上是一种“有信息损失的”对世界的编码方式。 在a16z访谈中,Casado做了一个思维实验:蒙上你的眼睛,用语言描述一个房间,然后让你完成一项任务,你成功的概率极低。因为语言对现实的描述永远是粗糙的。拿掉眼罩,你的大脑瞬间重建3D空间,你就能操作、触摸、移动。 李飞飞补充了一个更极端的例子,即科学史上最著名的一次空间推理:罗莎琳德·富兰克林拍摄的DNA X射线衍射照片是一张平面的二维影像,上面的结构看起来像一个带有衍射的十字。但沃森和克里克通过那张二维照片,在三维空间中推理出了DNA的双螺旋结构。“那个结构不可能是二维的。你不能用二维的思维来推导出那个结构。” “如果你观察人类智能,很多都超出了语言的范畴。语言是一种有信息损失的捕捉世界的方式。纯粹的生成式‘语言’在自然界中并不存在;我们环顾四周,没有现成的句子或单词,而整个物理、感知、视觉世界却真实存在。” 这是一个容易被忽视的视角:当前大模型的大部分能力,建立在一种天然有损的信息压缩格式之上。而在Lenny's Podcast中,她用一个更日常的测试戳穿了这个幻象: “今天,你拿一个模型,让它运行一段包含几个办公室房间的视频,然后要求模型数一下椅子的数量。这是幼儿就能做到的事情,而人工智能却做不到。” 更不用说从天体运动中推导出物理定律:“让我们把所有的数据都给人工智能,包括牛顿没有的现代仪器数据,让它创建一套17世纪关于物体运动规律的方程。今天的人工智能做不到。” Marble:比GPT-5小几个数量级 将这个判断推向产品的是World Labs的第一代模型Marble,2024年底发布。 李飞飞在思科AI峰会上详细拆解了Marble的技术定位:接收文本、图片、视频或简单3D输入,生成一个“完全可导航、可交互且具有永久一致性的3D世界”。她特别强调,这与Sora等视频生成模型有本质区别,Marble生成的环境拥有几何结构,不是一段“看起来像”视频的像素动画。 在Lenny's Podcast中,她用柏拉图的洞穴寓言做了更深的阐释:囚犯被绑在椅子上,只能看到墙上投射的二维影子,但真正的戏剧在背后三维空间中上演。视频模型就是那些影子,而空间智能要做的,是创造和推理那个影子背后的真实世界。 一组对比: GPT-5的训练算力大约在10的26次方FLOPS量级,而Marble在规模上小几个数量级。原因有两层:数据获取难度完全不同(高质量3D物理数据极其稀缺),且这个领域还处于“Scaling Law的上升曲线”的早期阶段。 在Lenny's Podcast中,她进一步解释了为什么 机器人 学习无法简单复制语言模型的“苦涩的教训”。AI领域有一个著名的论断:拥有海量数据的简单模型最终总能胜过复杂模型。但“语言模型拥有一个完美的设置:训练数据是单词,输出也是文字。”而机器人技术中,“你希望获得行动,训练数据却缺乏在3D世界中的行动。”这种训练目标与数据形态之间的根本错位,才是机器人学习的核心难题。 World Labs采取混合数据策略:互联网规模的文本、图像和视频,加上仿真模拟数据,再加上真实世界采集数据。李飞飞坦承,“我们仍在探索模型架构的相对早期阶段”,但她预计“接下来的几年将会非常令人兴奋”。 话音刚落,World Labs就在2026年2月完成10亿美元融资, 英伟达 、AMD、a16z参投,估值从一年前的10亿美元飙升至约50亿美元。4月,团队开源了3D高斯溅射渲染引擎Spark 2.0,可在网页端实现亿级3D场景实时渲染,从闭源产品转向“产品+开源生态”的双轨策略,空间智能的技术门槛正在被快速拉低。 在Lenny's Podcast中,李飞飞也罕见地坦露了创业的艰辛:“如果我能对18个月前的自己耳语一句话:“这个领域的竞争强度,无论是技术还是人才,远超你的想象。” 无限宇宙与多元宇宙 真正让a16z那次访谈在X上反复出圈的,是李飞飞关于“无限宇宙”的表述: “在整个人类文明历史中,我们所有人都共同生活在一个3D世界里。只有少数人去过月球,但人数非常少。而这项技术让数字虚拟世界变得无比精彩。突然间,我们实际上可以创造无限的宇宙,有些是为机器人创造的,有些是为创造力创造的,有些是为社交创造的,有些是为旅行创造的,有些是为讲故事创造的。突然之间,我们能够生活在一个多元宇宙中,想象的空间是无限的。” Casado则从技术层面做了更具体的阐释:通过一张二维照片,模型就能生成包括桌子背面在内的完整360度3D表示。你可以操作、测量、堆叠,空间中能做的任何事都可以实现。 这不是科幻。在两次访谈中,李飞飞列举了Marble已经落地的应用: • 游戏开发者用早期版本开发游戏 • 与索尼合作的虚拟制作团队将电影制作周期缩短了 40倍 • 英伟达及多家学术实验室利用Marble训练机器人 • 建筑师和设计师用它做室内设计 • 临床研究人员为强迫症、恐高症患者定制个性化的沉浸式触发环境 • 有人用它生成个性化的瑜伽训练空间 最后一个应用尤其出人意