“英伟达也缺算力!”顶尖AI研究员转投xAI内幕:谁GPU管够,就去哪里

2026-06-08 1 阅读 褚杏娟
在 AI 行业,最硬的招聘福利,得加上“算力”了,而且连英伟达都无法置身事外。 曾在 NVIDIA 参与 Cosmos 世界模型、后加入 xAI 并参与打造 Grok Imagine 的 Ethan He,在参加“Latent Space”的访谈中提到,自己离开 NVIDIA 的关键原因,是意识到视频模型同样存在类似语言模型的缩放规律。模型要继续变强,就必须持续扩大训练规模;而一旦进入这个阶段,算力就不再只是基础设施,而是研究本身的上限。 看起来,在前沿视频模型面前,似乎即便是英伟达也会遇到算力不够自由的问题。于是,顶尖研究员的流动逻辑正在改变:谁能给更多 GPU、更快迭代、更少资源约束,谁就更有可能吸走前沿人才。 Ethan 加入 xAI 时,公司的视频和多模态团队几乎从零开始:没有完整基础设施、没有现成数据、没有成熟模型。几名工程师用了三个月,搭出了第一版 Grok Imagine 0.9。也正是在这段经历中,他形成了一个更激进的判断:视频生成的下一次跃迁,可能不再只是更强的扩散模型,而是视频智能体。 在他看来,视频生成正在走上一条类似 AI 编程的道路。AI 编程最早强调一次性生成代码,后来逐渐走向多轮推理、调试、测试、提交 PR 的智能体系统。视频生成也可能经历类似过程:从一次生成视频,走向能够规划整套创意任务、调用扩散模型和传统编辑工具,并交付生产级内容的视频智能体。 他指出,视频模型的真实成本被严重低估。除了 GPU,数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐,都会成为隐性吞金兽。Ethan 还表示,当扩散模型技术逐渐成熟后,视频模型的很多关键进步,已经不再主要来自视频模型本身,而是来自语言模型。换句话说,视觉智能很大程度上正在由语言智能驱动。 下面是对话详情,我们进行了翻译,并在不改变原意基础上进行了删减,以飨读者。 从英伟达到 xAI,为了算力“叛逃” Swyx: 给我们讲讲你转去 xAI 的过程吧,我其实都不知道你是什么时候加入的。 Ethan: 在加入 xAI 之前,我在英伟达做 Cosmos 世界模型。Cosmos 是一个大型视频基础模型,目标是模拟世界,并作为所有机器人研究者在其上继续构建的基础。做完 Cosmos One 后,我意识到这类模型也有类似语言模型的缩放规律(scaling law),我们需要继续把视频模型做大。所以我认为我需要去一个拥有更多算力资源的地方。这就是我后来转去 xAI 的原因。 Swyx: 比英伟达还要多? Vibhu: “GPU 富人”也出来找算力了。Cosmos 是什么时候? Ethan: 那是2024年底,然后我在2025年中去了 xAI。我加入时,xAI 正准备做视频模型和多模态模型。当时没有基础设施、没有数据、也没有模型,就是我们几个工程师,三个月把它做出来,并发布了第一个模型:Grok Imagine 0.9。从那以后,我一直在做视频模型,然后逐渐从视频模型的训练转向后训练,比如参考生视频(Reference-to-Video),有点像 cameo 功能,还有视频延展。我离开那会儿,在做世界模型,带着一个小团队专注在实时长时程视频生成。 Swyx: 能不能给我们一个大致路线图?Grok 之前只是文本,图像生成方面可能是和 BFL (黑森林实验室)合作,那你们要做什么? Ethan: 我觉得一方面要感谢我在 英伟达 的经验。因为我们第一次做 Cosmos 时,做了大概一年。这是我第二次做这类事情,大致知道要做什么。 在我看来,最重要的是人才。每个人都很强、很聪明,而且彼此非常紧密地朝着共同目标努力,这会极大加快速度。人与人之间的沟通带宽减少,每个人都能朝同一个目标推进。当时,每天日历上没有太多会议,可能一天一次同步会,之后就是全力建设。那段时间挺有意思的。 另一个原因是,xAI 在数据推理、模型推理和相关支持方面有非常强的基础,这些能够极大帮助模型开发。我看训练模型时,最重要的事情其实是:你每天能做多少次迭代?迭代越多,模型训练得越快。如果你有很强的基础设施,也有大量算力,就能在很短时间内训练这些模型。这会给错误留下更大的缓冲空间,也让你有机会发现更多 bug。 Swyx: 所以是在你加入之前,已经有人把这些东西搭好了,让你们可以很快迭代。 Ethan: 我觉得那里的基础非常适合开发和研究模型。我经常发现一件有点无聊的事情:很多提升并不是来自新算法,而是来自在数据管线和模型训练管线里发现各种小 bug。这些东西反而会给模型质量带来最大提升。 Swyx: 你有没有尝试用大模型来找 bug? Ethan: 我记得那是2025年中期,编程模型还没那么强,到了2025年12月,它们已经非常好了。那时我已经在用,确实有帮助。有时候它能非常快地第一次搭出东西,但生成的代码很难维护,像“意大利面条代码”(spaghetti code)一样,几千行,我自己维护不了,大模型本身也搞不清哪里有问题以及该怎么在上面继续改进。但现在我发现它好很多了。 我还想提出另一点:现在编程模型高效得多,可以帮助我们更快实现想法,但算力可能又会重新成为瓶颈。 以前如果你想训练一个新模型,比如想生成新的合成数据或者写一个新算法,可能要花几周时间。在这段时间里,你可能没有实验能跑。但现在你可以在几个小时内把东西做出来,然后马上训练模型。那你就必须有足够的算力去尝试所有想法,所以算力可能会再次成为迭代速度的瓶颈。 Swyx:我觉得这类工作挺有压力的,你会想:“我应该把所有东西都试一遍。如果我没试,那就是我工作做得不好。” Vibhu: 还有另一种压力,就是你每小时消耗几千张 GPU,这非常贵,而且算力也会给其他研究员用。 Swyx: 你有马斯克这个“爸爸”可以获得支持。 Ethan: 当时确实挺有压力的。是的。我觉得一方面,现在有了编程模型,很多工作可以自动化,这要好很多。另一方面,这是一场马拉松,所以你必须保持健康和规律作息。 视频模型的第一课:先学会“看图说话” Vibhu: 最开始几个月是什么样子?小团队、很多 bug、很多迭代,但具体怎样做出一个当时最先进的图像生成模型? Ethan: 我不能具体评论 xAI 是怎么做的,但这是一个相当标准的流程。 我可以从 Cosmos 举一些例子。主要来说,要做视频模型,实际上你需要先做图像模型。做这两个模型时,你需要的数据,百分之百是语言与图像、或者语言与视频的合成配对。因为在互联网上,视频并不会天然和文本关联。你可以说,YouTube 上有标题、描述和评论,但通常它们和视频本身并不相关。比如一个视频可能是山景这样的自然场景,但标题是“我今天太开心了”,它们之间根本没有相关性。 所以第一步是,你必须生成语言和视频之间的合成配对。你从互联网上收集视频,然后用视觉模型给视频加字幕。 最开始是让人类尽可能详细地描述视频。比如要求他们描述所有物体、所有角色、所有交互,以及视频中的对话。这也是 Cosmos 标注协议里的要求。我们给标注员的目标是:必须尽可能详细地描述视频,让一个盲人听到这段文字后,可以在脑海里重构出视频大概是什么样子。 Swyx: 无监督有一个解锁点。当你已经有足够基础可以启动之后,就可以把