我们离无人驾驶还有多远？

文 | 大湾区人工智能应用研究院过去几年，智能驾驶技术和市场普及都有长足的发展。从市场看，L2/L2+级别的辅助驾驶技术已经大规模商用，包括自适应巡航、车道保持、自动泊车等功能在众多车型上实现标配，根据QuestAuto统计，中国新能源汽车L2及以上辅助驾驶渗透率已达77.3%；中美等国的多个城市都展开了Robotaxi（L4级别自动驾驶服务）的试点运营，积累了丰富的实际道路运营经验。从技术上看，主流智能驾驶方案已经从早期的规则驱动转向了数据驱动，从经典“感知-决策-控制”模块化方案转向端到端神经网络，在这个过程中多模态大模型（VLM、VLA）也被引入智能驾驶的场景理解和决策。与此同时，车载算力也在突飞猛进，以英伟达为例，过去几年发布的车载算力芯片从Xavier到Orin再到Thor，算力从30 TOPS增长到最高2000+TOPS; 国内以小鹏为例，其自研的图灵AI芯片单颗有效算力也达到了750 TOPS，其最新发布的旗舰车型搭载4颗，有效算力也可超过3000 TOPS。此外，传感器的性能、成本、融合能力等亦有巨大的进步。以激光雷达为例，早期的机械激光雷达的成本高达几万美元，2020年前后半固态激光雷达的成本降到了几千美元，而近期随着国内华为、禾赛、速腾聚创等激光雷达厂商的崛起，价格已经被打到千元人民币级别，同时探测距离、精度和可靠性则全面提升。根据盖世研究院统计，2025年中国乘用车市场主激光雷达总装机量已达275.6万台，在新能源汽车市场的渗透率达到21%，是2年前的近三倍（2023年8%）。无人驾驶的技术难度级数上升辅助驾驶技术这几年突飞猛进，再叠加大模型等AI技术的整体跃升，看起来我们离 L4/L5 级别的无人驾驶似乎只差“最后一小步”。但恐怕还不能过于乐观，从智能驾驶到无人驾驶在技术，虽然距离不远，但难度是成级数上升的。人类和机器获得驾驶技能，使用的是两套完全不同的机制。一个人从开始学习驾驶到上路，只需要几十个小时的学习就可以了，是一个非常高效的过程。之所以有这样的效率是因为人类并不是完全在这几十个学时里“从零学会驾驶”的。一个成年人坐进驾驶座之前，已经在现实世界中生活了很多年，早就具备了大量与驾驶有关的基础能力：我们知道什么是道路，什么是危险，能理解红灯停、绿灯行，也能凭经验判断前车为什么减速、行人是不是要横穿、电动车会不会突然并线等。也就是说，人类学习驾驶，除了在驾校学习的理论和上车驾驶训练，还把原本就存在的常识、经验、规则意识和风险判断，迁移到驾驶这个具体任务上。人类学会驾驶，靠的是对规则、环境、其他车辆与行人意图的理解，在少量实践的基础上进行举一反三的决策和执行。机器驾驶（智能驾驶系统）走的是完全不同的路，早期更多依靠工程师编写规则：遇到红灯停车、检测到障碍物绕行——这种方式逻辑清晰、行为可解释，但规则永远无法穷举真实世界的复杂性，稍微偏离预设场景就会失效。正因如此，业界逐渐转向当前主流的“数据驱动 + 模式拟合”范式：用神经网络在海量数据上训练，让系统自行学习从感知输入到控制输出的映射。一套成熟的高阶智能驾驶系统，训练数据动辄以数千万公里甚至上亿公里计，相当于把成千上万名司机几十年的驾驶经验压缩后"喂"给模型。模型从这些数据中统计地学到：在某种路况、某种光线、某种车流密度下，方向盘应当转多少度、油门应当踩多深、刹车何时介入。它学到的不是"红灯要停"这条规则本身，而是"在图像中出现红色圆形信号灯时，车辆通常会减速至零"这一统计关联。换言之，机器并不真正 "理解"驾驶，它只是在高维空间里拟合了一个足够复杂的映射函数 ——输入是摄像头、雷达、激光雷达采集到的环境特征，输出是方向盘、油门、刹车的控制信号。这种"模式拟合"范式在训练数据充分覆盖的情况下，机器在感知精度、反应速度、一致性方面甚至可以超过人类司机——尤其是在结构化道路、良好天气、规则相对稳定的典型场景里。然而，正是这种以数据分布为根基的学习方式，埋下了智能驾驶到无人驾驶升级上最棘手的挑战—— 长尾问题（Long-tail Problem）。所谓长尾，指的是这样一类现象：真实世界的驾驶场景服从一个极度不均衡的分布——绝大多数时间（比如99%）里，道路是规整的、车流是有序的、行为是可预测的；但剩下时间占比不高的场景，却包含着数量庞大、形态各异、却每一种都极为罕见的场景：路面上横躺着一块与沥青颜色相近的轮胎碎片；施工路段的临时手势指挥与红绿灯信号相互矛盾；一辆超限货车的货物半挂在车外、形态从未出现在训练集中；暴雨导致部分车道被泥水掩盖，路面标线完全消失……甚至更多的是我们现在描述时根本无法想象出来的场景。对于高度依赖数据驱动和模式拟合的机器驾驶来说，长尾问题的底层挑战在于：用有限的数据，无法覆盖无限复杂的现实世界分布。对于L2级别的辅助驾驶，这个问题在工程上是“可接受”的，因为默认人类仍在驾驶闭环中（human‑in‑the‑loop）：系统在高频、典型路况下大幅减轻了驾驶员负担，带来显著价值；遇到模型信心不足或没有见过的长尾场景，可以通过退出、报警，把控制权交还给人类接管。换言之，有人类驾驶员做兜底时，长尾问题带来的更多是体验问题——提示多、不够丝滑、偶尔“罢工”。无人驾驶则完全不同：L4/L5意味着系统必须独立面对几乎所有真实发生的驾驶场景与道路不确定性，没有人类兜底的冗余。此时，长尾问题影响的不仅是体验，而是生死安全和系统整体可用性。在技术层面这是实现无人驾驶的最大挑战，对于基于模式拟合的机器驾驶系统，长尾是一道结构性的难关。为了缓解长尾问题，业界一方面持续积累更多真实道路数据进行训练（如截至2026年初，Waymo的完全无人驾驶车队在真实道路上的累计行驶里程已超过1.7亿英里），另一方面也大量使用合成数据和高保真仿真环境来“放大”罕见场景的样本量，构造覆盖更多边缘条件的训练集。这些做法确实能不断扩展系统对边缘场景（corner cases）的覆盖，但从数学分布的角度看，长尾本身的“长度”理论上是没有上限的，这些方法无法彻底解长尾问题。要在根本上削弱长尾的破坏力，单纯依赖“模式拟合”的架构可能不够，需要引入更强的世界建模（world model）：让系统不仅学习"输入到输出的映射"，还能够在内部模拟"如果我采取这个动作，世界会如何变化"，从而具备对未见场景进行推理和预测的能力，而不是只能依赖训练数据中出现过的模式。这与人类驾驶员依靠对物理世界和他人意图的理解来应对新场景，在机制上更为接近。业界和学术界在积极探索这一方向，但仍有相当长的路要走。从辅助驾驶到无人驾驶是整个系统的范式转变从辅助驾驶进化到无人驾驶，除了技术上需要跃迁，也是一个根本性的整体范式转变：一旦驾驶责任主体从人转向系统，工程方法、监管框架、伦理压力、商业逻辑都要重写，这些变化在技术要求之外，构成了无人驾驶特有的一整套额外挑战。首先，相比辅助驾驶，无人驾驶在系统可靠性上要求大幅提升，有些类似航空产品和消费电子产品的差别。原因是，辅助驾驶在工程要求上可以允许发生局部失效，比如摄像头被泥遮挡、激光雷达异常、计算芯片宕机或转向助力发生故障，只要系统能及时发现异常、退出并提示

订阅66必读