自动驾驶技术竞争升级，VLA之后是什么？

文 | 极智GeeTech 2026年，自动驾驶行业的内卷逻辑，正在发生第三次重构。短短数年间，行业快速走完了硬件堆砌竞赛、端到端算法博弈两个阶段，以小鹏、理想为代表的新势力车企和吉利、长城等传统车企扎堆入局VLA（视觉-语言-动作）模型，成为当前自动驾驶技术迭代的重要流派之一。凭借“视觉感知+语言推理+动作输出”的三位一体架构，VLA解决了传统自动驾驶最大的痛点：看得懂路况，却不懂路况逻辑。但VLA的弊端也十分明显，依靠语言模型进行推理，就需要视觉到语言、语言到动作的两次翻译，而翻译就会导致误差，反应也更慢。行业竞争的残酷性在于“刚追上主流，就迎来新迭代”。当一部分厂商还在打磨VLA量产落地、优化推理速度与场景泛化能力时，华为、小米等玩家却认为：VLA并不是自动驾驶的终极形态，只是从辅助驾驶走向全自动驾驶的过渡技术。真正的下半场竞争，早已瞄准VLA之后的下一代技术范式。 VLA如何重塑自动驾驶底层逻辑？想要看懂VLA的局限与未来方向，首先要厘清自动驾驶十年三代技术范式的迭代逻辑，每一次迭代，都是对前一代技术短板的彻底颠覆。第一代是规则驱动时代，也是最原始的自动驾驶形态。早期自动驾驶完全依托工程师手写百万行级C++代码，通过预设固定规则应对各类路况。系统的核心逻辑是“匹配规则、机械执行”，优点是稳定可控、可解释性强，缺点是极度僵化。面对未预设的突发场景、异形路况、混行交通，系统会直接决策失效，无法适配复杂真实路况，这也是早期辅助驾驶只能局限于高速巡航的核心原因。第二代是端到端AI时代，以特斯拉FSD V12为标志性起点。行业彻底抛弃模块化拆分与人工规则堆砌，搭建“像素输入、动作输出”的全神经网络架构，通过海量真实路况数据训练，让AI自主学习行驶决策。这一代技术解决了传统规则算法僵化、迭代慢的问题，大幅提升了自动驾驶平顺度与场景适配性。但其也存在致命短板，只有感知能力，没有理解能力。AI能识别障碍物、车道线，却无法理解场景背后的逻辑，不懂交通常识，极易出现“识别到但误判、避险生硬、决策不合理”的问题。第三代就是当下的VLA时代，也是近两年自动驾驶行业的主流形态。VLA在端到端视觉架构的基础上，加入自然语言推理能力，构建起“视觉感知世界、语言理解逻辑、动作输出决策”的完整闭环。不同于纯视觉端到端模型的“直觉式决策”，VLA可以像人类司机一样，先识别路况、再理解场景、最后制定行驶策略，完美适配城市复杂路口、人车混行、临时施工等高频复杂场景，让高阶无图智驾真正具备量产实用性。 VLA本质上是一种端到端的智能系统，通过统一的神经网络将多模态感知与高层逻辑推理、底层动作执行融为一体。其核心价值是将原本相互独立的感知模块（看）、逻辑模块（想）与执行模块（做）在同一个语义空间内完成了对齐。与传统的自动驾驶系统相比，VLA不仅能够识别环境中的像素点或几何结构，更能理解这些信号背后的语义逻辑。 VLA模型由视觉编码器、大语言模型（LLM）骨干网络以及动作解码器三个核心组件构成。视觉编码器将摄像头采集的多视角图像转化为高维的特征向量，这些向量包含了环境的空间布局与物体特征；LLM骨干网络则作为决策中心，利用预训练过程中积累的海量世界知识对视觉特征进行逻辑加工；动作解码器则将这些抽象的推理结果转化为如转向角度、加减速数值等具体的物理动作。这种一体化的映射方式使得系统能够以一种更接近人类认知的方式来处理驾驶任务。在人类驾驶过程中，大脑并不会先在意识里标出每一个行人的精确坐标再进行计算，而是基于对场景的整体理解（如“这个行人可能要过马路”）直接产生避让动作。VLA模型通过共享的Transformer架构，对语言、视觉和动作模态进行协同编码，构建了统一的语义空间，实现了从感知理解到动作决策的无缝衔接。经过三年迭代，VLA已经彻底改写行业格局，抹平了中小厂商的算法差距。如今主流车企的VLA，在常规城市道路、高速路况的表现已经趋于同质化，日常通行平顺度、场景覆盖率差距极小。同质化内卷的背后，意味着VLA的技术红利已经见顶，行业亟需新的技术突破点。看似完美封神，VLA四大瓶颈已现目前舆论普遍将VLA视为自动驾驶的最优解，但在一线技术团队与行业专家眼中，VLA从诞生之初就自带结构性缺陷，这些短板无法通过模型微调、数据增量、算力升级彻底解决，也是其注定只能成为过渡技术的核心原因。首先是时序逻辑缺失，空间场景推理能力薄弱。当前多数VLA模型擅长单帧、瞬时路况分析，对车流变化、行人移动轨迹、多车交互的连续时序逻辑预判不足。面对鬼探头、近距离穿插、车流突发变道等高速动态场景，以及车辆在具体空间里的运动，VLA缺乏灵敏感知能力，经常出现决策滞后、预判失误，无法实现人类司机的“提前预判、主动避险” 其次是算力成本高，实时性难以适配车载场景。VLA融合视觉、语言、动作三大模块，模型参数量庞大，推理计算量远超传统端到端算法。车载电控系统要求决策响应速度达到100Hz，而通用VLA语言推理速度普遍不足10Hz，巨大的算力差导致模型必须大幅精简才能上车。即便部分厂商通过优化推理链路，将时延压缩至80毫秒以内，依旧无法彻底解决智能化程度与速度不可兼得的矛盾，高算力成本也大幅抬高了高阶自动驾驶的量产门槛。第三是缺乏物理世界常识，长尾场景泛化能力失效。VLA的学习逻辑依托海量数据拟合，而非真正理解物理规律。它可以通过训练学会避让常规障碍物，却无法自主推理“路面积水易打滑需要减速”“树枝悬空可能掉落需要绕行”“雨雪天路面摩擦力下降需延长制动距离”等物理常识。对于这类稀缺长尾场景，数据无法完全覆盖，VLA极易出现决策失误，而自动驾驶的安全底线，恰恰由这些长尾极端场景决定。最后是跨模态对齐偏差，决策稳定性不足。视觉、语言、动作三大模块存在天然的链路损耗，视觉感知偏差、语言推理误差、动作输出偏差会层层叠加。在逆光、浓雾、暗光等视觉受限场景，VLA会出现语义理解与实际路况脱节的问题，出现“识别正确、理解错误、动作偏差”的诡异决策，轻则行驶顿挫、路线偏移，重则引发安全事故，这也是纯视觉VLA方案的先天物理短板。综上来看，VLA虽然解决了自动驾驶的智能化问题，却没解决安全性、实时性、通用性问题，这也是行业必须突破VLA、探索下一代技术的核心动因。下一代自动驾驶核心技术方向站在2026年的技术节点，头部厂商朝着跳出VLA的模态融合思维，转向物理世界智能建模的方向发展。VLA的核心是看懂、读懂、动作，而下一代自动驾驶技术，核心是懂规律、会推演、能预判，目前行业已明确四大主流迭代方向。其一，多模态物理世界模型，成为下一代技术核心底座。世界模型是彻底解决VLA物理常识缺失的最优解，也是特斯拉、华为重点攻坚的核心方向。不同于VLA依托数据拟合场景，世界模型会自主学习现实世界的物理规则、交通规律、运动逻辑，构建完整的虚拟路况世界。面对从未见过的长尾场景，无需海量数据训练，就能依托物理常识自主推演最优决策，真正实现“举一反三”。简单来说，VLA是见过才会，世界模型是懂原理所以会，从根本上解决长尾场景失效的行业难题，是全自动驾驶落地的核心基础。其二，时序具身智能架构，补齐动态决策短板。针对VLA时序推理薄弱的缺陷，下一代技术将彻底强化连续场景