智能AI
morning
智象未来CEO梅涛:多模态模型Token的毛利率,远高于语言模型
2026-05-28
1 阅读
36kr
文|王欣逸 李嘉星 编辑|周鑫雨 一家Day 1就在做多模态大模型的公司,无法拒绝参与到具身智能和世界模型热潮之中。 2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力越来越成为行业内绕不开的关键词。5月19日,智象未来首届开放日上,智象未来给出了他们的判断和回答:“原生多模态是实现AGI的必经之路。” 本场开放日活动主题为“Imaging the World”,不过,对于智象未来而言,「World」的重要性,几乎要放在「Video」和「Image」之前了。 “我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复提及这一观点,在他的定义中,智象未来要做一家原生多模态大模型公司。 在梅涛看来,一个真正的世界模型需要同时满足多个条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互以及绝对的安全性。 当下业界主流的世界模型训练路线可以分为李飞飞的“生成3D世界”一派,以及Yann LeCun的“自监督预测世界”一派。 智象未来则做出了不同的选择——做算法和架构层的创新,从世界模型训练中最稀缺、成本最高的多模态数据入手,率先聚焦在视频、图像、3D交互等数据的生成上,用低成本的合成数据对抗行业数据稀缺瓶颈,并从中积累一些在世界模型上可复用的视觉模型能力。 具体而言,他们要让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构能做到“Any to Any”(任何形式输入支持任何形式输出),这也正是世界模型所需要的能力:在统一架构中理解、生成并预测现实世界的不同状态。 过去一段时间,他们做出了从“模型即产品”到“做Agent平台”的转变。 作为一家主要面向To B的公司,他们概括自己的打法是做一个“1+1+3”MaaS(软件即服务)平台,分别为底层的HiDream系列大模型、中间层的HiHarness企业服务平台,以及上层三大场景的应用:商业营销、影视创作、社媒创作。 概念火热的同时,资本也在不断押注。继上个月拿到安徽省产投、东方富海等机构参投的5亿人民币B轮融资之后,智象未来又火速官宣了下一轮融资,两周内再次完成亿元级新一轮融资。 一系列竞争也随之而来,当下的模型能力越来越强,在和海内外基模厂商争夺模型市场的同时,智象未来还要攥紧他们手中的新牌——MaaS平台,并瞄准视频生成领域的垂类赛道,开展和大公司的争夺战。 在智象未来开放日结束后,《智能涌现》等媒体和智象未来CEO梅涛,以及其投资人东方富海合伙人王兵聊了聊,以下为对话实录(略经摘编)。 很多具身智能公司低估了视频模型的重要性 问:在大家的认知当中,智象未来之前做图像和视频比较多,从二维的图像、视频,到三维的物理世界,你们的战略转型是怎么发生的? 梅涛: 目前大家将市面上一些模型称之为世界模型还太早了。世界模型有不同的路径,未来可能也会有多种可能性。 到今天为止, 我们不会去对外声明我们目前是一家世界模型公司 ,我们更倾向于将智象未来定义为 原生多模态大模型公司 。 智向未来更关注原生的全模态大模型及其应用领域,不过,原生多模态大模型公司在将来肯定会通往世界模型。 问:现在很多公司都自称在做“世界模型”,但外界对这个概念的定义很模糊。您如何界定智象未来所追求的“世界模型”? 梅涛: 我们会非常严谨地认为智象未来做的是原生多模态的模型,在迈向世界模型的过程中,会比较聚焦在视频、图像、3D交互这些数据的生成上。 问:智象未来从拼接式多模态升级为原生多模态,这在技术上出现了什么拐点?目前技术是否成熟? 梅涛: 多模态生成领域的技术尚未收敛,这正是创业公司的机会。如果技术完全收敛、统一采用DIT框架,我们也就没有空间了。 正因为技术没有快速收敛,我们才能通过算法创新,以少量资源实现与大厂同等的效果,而非单纯去拼数据与算力。 问:从全模态大模型到世界模型,需要还需要达成哪些成熟的技术条件? 梅涛: 第一是掌握物理规律,包括流体力学、固体力学、分子动力学和牛顿定律等,目前行业还难以全面枚举和掌控; 第二是解决长上下文的因果关系问题; 第三是实现与物理世界的全模态交互,比如机器人怎么拿起杯子、拧开盖子、倒水并判断用户需求,这离我们还有相当长的距离; 第四是安全性,机器人如果进入家庭,必须保障百分之百的安全,避免对人身或贵重物品造成损害。 我们现阶段更务实的选择是关注原生多模态问题,既能实现商业化落地,也能为未来迈向世界模型做好技术积淀。 问:很多视频生成模型公司都在卷长视频、真实性,在迈向世界模型的过程中,这些指标会发生改变吗? 梅涛: 世界模型强调的是生成世界的能力,包括逻辑关系、视觉效果等。 我们对自己的视频模型有三个维度的要求: 第一是 模型能力 ,即视觉内容的合理性、质量,与物理规律的符合度,在模型能力上我们必须瞄准天花板来做; 第二是 视频时长 ,我们目前能做到分钟级的生成,甚至在技术上可以做到3分钟、5分钟甚至无限长; 第三是 实时性与交互能力, 当模型花1分钟就能生成出1分钟时长的视频,那基本就可以实现交互了。我希望我们的产品可以朝这个方向努力,比如通过算法提供低质量的预览,用户确认后再输出高精度的2K或4K视频。 问:在训世界模型的过程中,数据是比较稀缺的资源。您认为世界模型的数据获取、清洗和标注策略,和之前训图像、视频模型相比有什么不同? 梅涛: 模型训练过程包含三个要素:算法、数据和算力。 倘若算法框架固定下来,剩下的就是在比拼数据和算力了。举个例子,如果大家都在用DiT(Diffusion Transformer)架构做视频模型的话,数据的质量、分布以及数据标注的质量,对模型能力相当重要。 不过,一旦算法和架构发生了变化,或者出现了新的架构和新的算法,数据的重要性就会弱一点。这也是创业公司的机会所在——我们不完全拼算力和数据,而是关注算法本身的创新。 回到数据层面来看,为了获取高质量真实的数据和反馈,我们做了一套工具链条,用以收集、清洗和标注这些数据。 我们拥有20万小时有影视版权的视频数据,和不少厂商保持着合作关系,同时也正寻求和头部拥有版权数据的影视公司的合作。 世界模型的数据情况与视频模型有所不同,世界模型数采需要全方位多模态的数据,成本更高,且更为稀缺。因此,智象未来在做的是,将其他厂商采集到的毫米级真人实操数据,用视频模型生成万份级不同场景、肤色的真人数据,并用这些真实数据及机器合成数据训练VLA(Vision-Language-Action,视觉-语言-动作模型)和WAM(World Action Model,世界动作模型)。 问:用纯真实数据训模型,和用机器合成数据训模型,效果会有所不同吗? 梅涛: 我们会进行小规模的验证,形成从数据到模型训练的闭环。具体来说,就是看用机器生成的数据对市面上普通的乃至最好的VLA和WAM模型有没有好处,反推去验证数据的有效性。 问:您曾提到,很多具身智能公司低估了视频模型的重要性。您为什么认为没有视频模型,具身智能很难走远? 梅涛: 现在具身智能公司的模型规模普遍很小(不到100B)。如果真要承担类似世界模型的复杂任务,靠小模型和有限的数据采集,不太可能实现广泛的泛化。