“英伟达也缺算力！”顶尖AI研究员转投xAI内幕：谁GPU管够，就去哪里

在 AI 行业，最硬的招聘福利，得加上“算力”了，而且连英伟达都无法置身事外。曾在 NVIDIA 参与 Cosmos 世界模型、后加入 xAI 并参与打造 Grok Imagine 的 Ethan He，在参加“Latent Space”的访谈中提到，自己离开 NVIDIA 的关键原因，是意识到视频模型同样存在类似语言模型的缩放规律。模型要继续变强，就必须持续扩大训练规模；而一旦进入这个阶段，算力就不再只是基础设施，而是研究本身的上限。看起来，在前沿视频模型面前，似乎即便是英伟达也会遇到算力不够自由的问题。于是，顶尖研究员的流动逻辑正在改变：谁能给更多 GPU、更快迭代、更少资源约束，谁就更有可能吸走前沿人才。 Ethan 加入 xAI 时，公司的视频和多模态团队几乎从零开始：没有完整基础设施、没有现成数据、没有成熟模型。几名工程师用了三个月，搭出了第一版 Grok Imagine 0.9。也正是在这段经历中，他形成了一个更激进的判断：视频生成的下一次跃迁，可能不再只是更强的扩散模型，而是视频智能体。在他看来，视频生成正在走上一条类似 AI 编程的道路。AI 编程最早强调一次性生成代码，后来逐渐走向多轮推理、调试、测试、提交 PR 的智能体系统。视频生成也可能经历类似过程：从一次生成视频，走向能够规划整套创意任务、调用扩散模型和传统编辑工具，并交付生产级内容的视频智能体。他指出，视频模型的真实成本被严重低估。除了 GPU，数据标注、VAE 压缩、PB 级存储、云端带宽、音视频时间戳级对齐，都会成为隐性吞金兽。Ethan 还表示，当扩散模型技术逐渐成熟后，视频模型的很多关键进步，已经不再主要来自视频模型本身，而是来自语言模型。换句话说，视觉智能很大程度上正在由语言智能驱动。下面是对话详情，我们进行了翻译，并在不改变原意基础上进行了删减，以飨读者。从英伟达到 xAI，为了算力“叛逃” Swyx：给我们讲讲你转去 xAI 的过程吧，我其实都不知道你是什么时候加入的。 Ethan：在加入 xAI 之前，我在英伟达做 Cosmos 世界模型。Cosmos 是一个大型视频基础模型，目标是模拟世界，并作为所有机器人研究者在其上继续构建的基础。做完 Cosmos One 后，我意识到这类模型也有类似语言模型的缩放规律（scaling law），我们需要继续把视频模型做大。所以我认为我需要去一个拥有更多算力资源的地方。这就是我后来转去 xAI 的原因。 Swyx：比英伟达还要多？ Vibhu： “GPU 富人”也出来找算力了。Cosmos 是什么时候？ Ethan：那是2024年底，然后我在2025年中去了 xAI。我加入时，xAI 正准备做视频模型和多模态模型。当时没有基础设施、没有数据、也没有模型，就是我们几个工程师，三个月把它做出来，并发布了第一个模型：Grok Imagine 0.9。从那以后，我一直在做视频模型，然后逐渐从视频模型的训练转向后训练，比如参考生视频（Reference-to-Video），有点像 cameo 功能，还有视频延展。我离开那会儿，在做世界模型，带着一个小团队专注在实时长时程视频生成。 Swyx：能不能给我们一个大致路线图？Grok 之前只是文本，图像生成方面可能是和 BFL （黑森林实验室）合作，那你们要做什么？ Ethan：我觉得一方面要感谢我在英伟达的经验。因为我们第一次做 Cosmos 时，做了大概一年。这是我第二次做这类事情，大致知道要做什么。在我看来，最重要的是人才。每个人都很强、很聪明，而且彼此非常紧密地朝着共同目标努力，这会极大加快速度。人与人之间的沟通带宽减少，每个人都能朝同一个目标推进。当时，每天日历上没有太多会议，可能一天一次同步会，之后就是全力建设。那段时间挺有意思的。另一个原因是，xAI 在数据推理、模型推理和相关支持方面有非常强的基础，这些能够极大帮助模型开发。我看训练模型时，最重要的事情其实是：你每天能做多少次迭代？迭代越多，模型训练得越快。如果你有很强的基础设施，也有大量算力，就能在很短时间内训练这些模型。这会给错误留下更大的缓冲空间，也让你有机会发现更多 bug。 Swyx：所以是在你加入之前，已经有人把这些东西搭好了，让你们可以很快迭代。 Ethan：我觉得那里的基础非常适合开发和研究模型。我经常发现一件有点无聊的事情：很多提升并不是来自新算法，而是来自在数据管线和模型训练管线里发现各种小 bug。这些东西反而会给模型质量带来最大提升。 Swyx：你有没有尝试用大模型来找 bug？ Ethan：我记得那是2025年中期，编程模型还没那么强，到了2025年12月，它们已经非常好了。那时我已经在用，确实有帮助。有时候它能非常快地第一次搭出东西，但生成的代码很难维护，像“意大利面条代码”（spaghetti code）一样，几千行，我自己维护不了，大模型本身也搞不清哪里有问题以及该怎么在上面继续改进。但现在我发现它好很多了。我还想提出另一点：现在编程模型高效得多，可以帮助我们更快实现想法，但算力可能又会重新成为瓶颈。以前如果你想训练一个新模型，比如想生成新的合成数据或者写一个新算法，可能要花几周时间。在这段时间里，你可能没有实验能跑。但现在你可以在几个小时内把东西做出来，然后马上训练模型。那你就必须有足够的算力去尝试所有想法，所以算力可能会再次成为迭代速度的瓶颈。 Swyx：我觉得这类工作挺有压力的，你会想：“我应该把所有东西都试一遍。如果我没试，那就是我工作做得不好。” Vibhu：还有另一种压力，就是你每小时消耗几千张 GPU，这非常贵，而且算力也会给其他研究员用。 Swyx：你有马斯克这个“爸爸”可以获得支持。 Ethan：当时确实挺有压力的。是的。我觉得一方面，现在有了编程模型，很多工作可以自动化，这要好很多。另一方面，这是一场马拉松，所以你必须保持健康和规律作息。视频模型的第一课：先学会“看图说话” Vibhu：最开始几个月是什么样子？小团队、很多 bug、很多迭代，但具体怎样做出一个当时最先进的图像生成模型？ Ethan：我不能具体评论 xAI 是怎么做的，但这是一个相当标准的流程。我可以从 Cosmos 举一些例子。主要来说，要做视频模型，实际上你需要先做图像模型。做这两个模型时，你需要的数据，百分之百是语言与图像、或者语言与视频的合成配对。因为在互联网上，视频并不会天然和文本关联。你可以说，YouTube 上有标题、描述和评论，但通常它们和视频本身并不相关。比如一个视频可能是山景这样的自然场景，但标题是“我今天太开心了”，它们之间根本没有相关性。所以第一步是，你必须生成语言和视频之间的合成配对。你从互联网上收集视频，然后用视觉模型给视频加字幕。最开始是让人类尽可能详细地描述视频。比如要求他们描述所有物体、所有角色、所有交互，以及视频中的对话。这也是 Cosmos 标注协议里的要求。我们给标注员的目标是：必须尽可能详细地描述视频，让一个盲人听到这段文字后，可以在脑海里重构出视频大概是什么样子。 Swyx：无监督有一个解锁点。当你已经有足够基础可以启动之后，就可以把