世界模型接棒语言模型，这家公司全球首创物理AGI“双金字塔”体系，通用机器人进入“家庭时代”

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 世界模型接棒语言模型，这家公司全球首创物理AGI“双金字塔”体系，通用机器人进入“家庭时代” 思邈 2026-05-28 21:01:16 来源：量子位 12个月冲击物理AGI的“GPT-3时刻” 允中发自凹非寺量子位 | 公众号 QbitAI 后空翻、跑酷、单手抓举几十公斤…… 过去两年，人形机器人最出圈的高光时刻，几乎都发生在精心布光的舞台上。但镜头之外，有一个更朴素的问题始终悬而未决：它到底什么时候能走进你家，稳稳端起一杯水、收好一桌碗筷、把脏衣篮抱进洗手间？ 5月20日，极佳视界没有再用“五年内”这类含糊措辞来搪塞。它把通用人形机器人真机，直接推进了武汉光谷一处真实的居民社区：那里有人住、有孩子把玩具撒一地、家具随时会被挪动位置。在发布会现场，极佳视界还首次完整披露了过去三年沉淀下来的 “双金字塔” 技术体系。一边是数据金字塔，从互联网视频、真人数据、世界模型模拟器、仿真合成数据一路走到真机数据；另一边是算法金字塔，围绕世界模拟、动作对齐、经验强化搭建具身基础模型的自我进化路径。资本市场也已经提前投票。2026年3月至4月，极佳视界在短短一个月内连续完成两轮融资，合计金额约 25亿元，并跻身国内首个世界模型 “百亿独角兽” 。于是，一个更值得追踪的问题浮出水面：当100台机器人开始进入真实家庭，当双金字塔体系开始吃到长周期、多变量、带有人类反馈的真机数据，当25亿元融资把研发、量产与场景落地同时推上快车道，物理AGI会不会真的迎来自己的临界点？务实的轮臂机器人与百台真机进家极佳视界联合创始人、首席科学家朱政博士，这一次走向台前，身上多了一个新标签：拾光品牌CEO 。作为全场焦点的具身智能C端子品牌，朱政在发布会上留下了一段近乎产品宣言的定调： AGI不该只停留在屏幕里。我们不是在讲一个遥远的未来故事，而是在把骨子里对物理AGI的信仰，变成真实的产品。在这款第一代产品—— 拾光S1 的设计哲学里，能清晰看到这家公司对 “真实家庭场景” 极其具体的解构。最具视觉冲击力的“全人形+双足”路线，并没有出现在拾光S1身上。相反，它采用了一种更务实的家庭版轮臂构型 ——下半身轮式底盘，上半身人形双臂。这是一组带有鲜明产品观的取舍。毕竟在现阶段，家庭场景对机器人的真实刚需，是稳当地端水、收拾餐具、抱起脏衣篮、把零食递到孩子手上，而不是在客厅里完成酷炫的跑酷动作。相比之下，轮臂构型在稳定性、安全性、续航以及硬性成本上，显然都更占优势。面对中国家庭的真实地板宽度、真实门洞尺寸以及真实的预算曲线，拾光S1展现出了一种极为清醒且务实的市场姿态。而在务实的硬件外壳之下，支撑其运转的是极佳视界自研的具身基础模型（GigaBrain系列）。该模型实现了从感知、理解到行动的完整闭环，能够自主识别物体与场景、规划路径，并执行包含抓取、对齐、折叠、归类等多步骤的长程任务。回到硬核的商业化进展上，极佳视界现场宣布：拾光S1已斩获真实家庭场景的百台量产订单，将率先部署于武汉光谷之寓——一处位于光谷的真实居民住宅社区。具体的落地节奏也已经排定好： 5月31日起：拾光S1真实家庭场景展示体验空间面向公众开放；第三季度起：正式开启百台规模化运营；届时：下一代产品拾光S2将同步发布，并开启真实家庭创始版预定通道。把“100台”这个数字放进全球具身智能的坐标系来看，其含金量并不在于数字本身，而在于 “家庭” 二字。纵观全球，Figure AI挺进了宝马工厂，但其家庭场景仍处于试点阶段；1X虽开放过NEO的预订，但实际履约规模仍停留在数十台；Tesla Optimus至今则尚未真正对外部消费者开售。在主流国内具身智能玩家里，目前能够拿出一份可履约家庭订单的团队，也屈指可数。究其原因，进工厂和进家庭，完全是两个数量级的难度。工业工厂是高度结构化的，光线、节拍、物料位置基本恒定。而家庭场景则是极度的“非结构化”：今天家具被挪动了位置，明天孩子把玩具撒了一地，后天又有客人突然到访……所有的动态变量都在无限叠加。这也揭示了当前行业最隐秘的痛点——当下具身智能最稀缺的资源，不是算法，也不是单纯的算力，而是在真实家庭里、长周期、多变量、带有人类反馈（RLHF）的真机数据。这种数据，在实验室里造不出来，在自动化工厂里也补不出来。一旦第三季度这百台机器人真正跑起来，产生的将是难以被复制的核心数据资产：家庭场景下的真实故障率、用户偏好分布、更具烟火气的长尾任务清单，以及人机交互的真实边界。这些数据，将成为GigaBrain后续模型迭代不可替代的燃料。值得注意的是，在C端家庭场景高调破局的同时，极佳视界的B端工业节奏也在平行推进。就在发布会前不久，极佳视界联合一汽模具、阿里云，完成了国内首个具身智能机器人在真实工业制造场景的全流程落地。在这场跨界合作中，团队成功将传统自动化方案长达数月的场景适配周期，压缩到了短短几周。家用求广，工业求深。左手C端场景的数据飞轮，右手B端工业的标杆落地，极佳视界的双线并行矩阵，至此已初具雏形。技术方法论：解构物理AGI的“双金字塔”体系如果说“百台部署”回答了具身智能产品何时落地的破局点，那么“双金字塔”回答的就是另一个更底层、更核心的终极命题：物理AGI的Scaling Law，究竟该建在什么样的基石之上？在发布会现场，极佳视界合伙人、研发副总裁叶云首次完整披露了公司过去三年沉淀的技术方法论。 △极佳视界合伙人、研发副总裁叶云他直言不讳地指出了当前具身智能行业系统性存在、却鲜少被彻底攻克的两大瓶颈：一是数据侧的“既要又要还要”难题。真机数据精度高但成本高、规模小；仿真数据可扩展但存在不可忽视的sim-to-real gap（虚实迁移鸿沟）；互联网视频规模极大，却缺乏动作监督。任何单一数据源，都无法同时满足规模、密度和真实性。二是算法侧的“小马拉大车”困局。主流VLA（Vision-Language-Action）范式习惯性将视觉、动作token化后塞进大语言模型，但这套机制天然不擅长处理3D空间信息、物理因果逻辑以及连续动作编码。针对这两大痛点，极佳视界给出的解法是：将数据与算法分别解构，用结构化的“双金字塔”体系强行破局。数据金字塔的核心，在于解决模型“喂什么”的问题。极佳视界将其从底到顶划分为5个层级：互联网视频数据→真人数据→世界模型模拟器→仿真合成数据→真机数据。在这套架构中，底层管广度，顶层管精度。而中间三层，正是工程化空间最大、也是过去整个行业最被低估的“腰部力量”。分层概念在学术界讨论已两年有余，真正拉开差距的是全栈工程化的落地能力。极佳视界直接为每一层都掏出了对应的商业化或自研硬核产品：互联网视频层：YouTube、Panda-70M等公开海量数据的高效复用；真人数据层：