智能AI
morning
世界模型接棒语言模型,这家公司全球首创物理AGI“双金字塔”体系,通用机器人进入“家庭时代”
2026-05-28
1 阅读
思邈
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 世界模型接棒语言模型,这家公司全球首创物理AGI“双金字塔”体系,通用机器人进入“家庭时代” 思邈 2026-05-28 21:01:16 来源: 量子位 12个月冲击物理AGI的“GPT-3时刻” 允中 发自 凹非寺 量子位 | 公众号 QbitAI 后空翻、跑酷、单手抓举几十公斤…… 过去两年,人形机器人最出圈的高光时刻,几乎都发生在精心布光的舞台上。 但镜头之外,有一个更朴素的问题始终悬而未决:它到底什么时候能走进你家,稳稳端起一杯水、收好一桌碗筷、把脏衣篮抱进洗手间? 5月20日, 极佳视界 没有再用“五年内”这类含糊措辞来搪塞。它把通用人形机器人真机,直接推进了武汉光谷一处真实的居民社区: 那里有人住、有孩子把玩具撒一地、家具随时会被挪动位置。 在发布会现场,极佳视界还首次完整披露了过去三年沉淀下来的 “双金字塔” 技术体系。 一边是 数据金字塔 ,从互联网视频、真人数据、世界模型模拟器、仿真合成数据一路走到真机数据; 另一边是 算法金字塔 ,围绕世界模拟、动作对齐、经验强化搭建具身基础模型的自我进化路径。 资本市场也已经提前投票。2026年3月至4月,极佳视界在短短一个月内连续完成两轮融资,合计金额约 25亿元 ,并跻身国内首个世界模型 “百亿独角兽” 。 于是,一个更值得追踪的问题浮出水面: 当100台机器人开始进入真实家庭,当双金字塔体系开始吃到长周期、多变量、带有人类反馈的真机数据,当25亿元融资把研发、量产与场景落地同时推上快车道,物理AGI会不会真的迎来自己的临界点? 务实的轮臂机器人与百台真机进家 极佳视界联合创始人、首席科学家 朱政 博士,这一次走向台前,身上多了一个新标签: 拾光品牌CEO 。 作为全场焦点的具身智能C端子品牌,朱政在发布会上留下了一段近乎产品宣言的定调: AGI不该只停留在屏幕里。我们不是在讲一个遥远的未来故事,而是在把骨子里对物理AGI的信仰,变成真实的产品。 在这款第一代产品—— 拾光S1 的设计哲学里,能清晰看到这家公司对 “真实家庭场景” 极其具体的解构。 最具视觉冲击力的“全人形+双足”路线,并没有出现在拾光S1身上。相反,它采用了一种更务实的 家庭版轮臂构型 ——下半身轮式底盘,上半身人形双臂。 这是一组带有鲜明产品观的取舍。 毕竟在现阶段,家庭场景对机器人的真实刚需,是稳当地端水、收拾餐具、抱起脏衣篮、把零食递到孩子手上,而不是在客厅里完成酷炫的跑酷动作。 相比之下,轮臂构型在 稳定性、安全性、续航以及硬性成本 上,显然都更占优势。 面对中国家庭的 真实地板宽度、真实门洞尺寸以及真实的预算曲线 ,拾光S1展现出了一种极为清醒且务实的市场姿态。 而在务实的硬件外壳之下,支撑其运转的是极佳视界自研的 具身基础模型(GigaBrain系列) 。 该模型实现了从感知、理解到行动的完整闭环,能够自主识别物体与场景、规划路径,并执行包含抓取、对齐、折叠、归类等多步骤的 长程任务 。 回到硬核的商业化进展上,极佳视界现场宣布:拾光S1已斩获真实家庭场景的 百台量产订单 ,将率先部署于武汉光谷之寓——一处位于光谷的真实居民住宅社区。 具体的落地节奏也已经排定好: 5月31日起 :拾光S1真实家庭场景展示体验空间面向公众开放; 第三季度起:正式开启百台规模化运营; 届时:下一代产品拾光S2将同步发布,并开启真实家庭创始版预定通道。 把“100台”这个数字放进全球具身智能的坐标系来看,其含金量并不在于数字本身,而在于 “家庭” 二字。 纵观全球,Figure AI挺进了宝马工厂,但其家庭场景仍处于试点阶段;1X虽开放过NEO的预订,但实际履约规模仍停留在数十台;Tesla Optimus至今则尚未真正对外部消费者开售。 在主流国内具身智能玩家里,目前能够拿出一份可履约家庭订单的团队,也屈指可数。 究其原因, 进工厂和进家庭,完全是两个数量级的难度。 工业工厂是高度结构化的,光线、节拍、物料位置基本恒定。 而家庭场景则是极度的“非结构化”:今天家具被挪动了位置,明天孩子把玩具撒了一地,后天又有客人突然到访……所有的动态变量都在无限叠加。 这也揭示了当前行业最隐秘的痛点——当下具身智能最稀缺的资源,不是算法,也不是单纯的算力,而是 在真实家庭里、长周期、多变量、带有人类反馈(RLHF)的真机数据 。 这种数据,在实验室里造不出来,在自动化工厂里也补不出来。 一旦第三季度这百台机器人真正跑起来,产生的将是难以被复制的 核心数据资产: 家庭场景下的真实故障率、用户偏好分布、更具烟火气的长尾任务清单,以及人机交互的真实边界。 这些数据,将成为GigaBrain后续模型迭代不可替代的燃料。 值得注意的是,在C端家庭场景高调破局的同时,极佳视界的B端工业节奏也在平行推进。 就在发布会前不久,极佳视界联合 一汽模具、阿里云 ,完成了 国内首个具身智能机器人在真实工业制造场景的全流程落地 。 在这场跨界合作中,团队成功将传统自动化方案长达数月的场景适配周期,压缩到了 短短几周 。 家用求广,工业求深。 左手C端场景的数据飞轮,右手B端工业的标杆落地,极佳视界的双线并行矩阵,至此已初具雏形。 技术方法论:解构物理AGI的“双金字塔”体系 如果说“百台部署”回答了具身智能产品何时落地的破局点,那么“双金字塔”回答的就是另一个更底层、更核心的终极命题: 物理AGI的Scaling Law,究竟该建在什么样的基石之上? 在发布会现场,极佳视界合伙人、研发副总裁 叶云 首次完整披露了公司过去三年沉淀的技术方法论。 △极佳视界合伙人、研发副总裁叶云 他直言不讳地指出了当前具身智能行业系统性存在、却鲜少被彻底攻克的两大瓶颈: 一是 数据侧的“既要又要还要”难题。 真机数据精度高但成本高、规模小;仿真数据可扩展但存在不可忽视的sim-to-real gap(虚实迁移鸿沟);互联网视频规模极大,却缺乏动作监督。 任何单一数据源,都无法同时满足规模、密度和真实性。 二是 算法侧的“小马拉大车”困局。 主流VLA(Vision-Language-Action)范式习惯性将视觉、动作token化后塞进大语言模型,但这套机制天然不擅长处理3D空间信息、物理因果逻辑以及连续动作编码。 针对这两大痛点,极佳视界给出的解法是: 将数据与算法分别解构,用结构化的“双金字塔”体系强行破局。 数据金字塔的核心,在于解决模型“喂什么”的问题。 极佳视界将其从底到顶划分为5个层级: 互联网视频数据→真人数据→世界模型模拟器→仿真合成数据→真机数据。 在这套架构中,底层管广度,顶层管精度。 而中间三层,正是工程化空间最大、也是过去整个行业最被低估的“腰部力量”。 分层概念在学术界讨论已两年有余,真正拉开差距的是 全栈工程化的落地能力 。 极佳视界直接为每一层都掏出了对应的商业化或自研硬核产品: 互联网视频层 :YouTube、Panda-70M等公开海量数据的高效复用; 真人数据层: