端到端大模型席卷广州车展，智驾行业的一次技术大跃迁

作者 | 德新苗岭，编辑 | 德新

智驾行业的一次技术大跃迁

作为岁末压轴的一场大型车展，没有其他展会比广州车展更能揭示未来一年汽车行业的趋势。除了新能源车渗透率继续如火如荼地攀升之外，「端到端城区智驾」成为这届车展上的核心主题。如果说半年前的北京车展，端到端还只是头部车企对新技术的探索，那到了广州车展，包括外资与合资车企在内几乎所有厂商都在拥抱这一技术路线。汽车行业正迎来一次智驾技术的升级跃迁。

端到端大模型的本质是以参数规模更大的模型，取代过去「感知以小模型为主 + 决策规划以规则代码为主」的技术架构。它减少了小模型之间信息传递的损失，从而使系统能够获取更加丰富的动静态目标信息，并且直接从驾驶数据中学习到合理的开车方法。

行业推动城市NOA量产已有两三年时间。但衡量城市NOA的关键指标——MPI（平均接管里程），在今年上半年大概也只有10公里以内，也就是每行驶10公里至少需要用户接管1次。用户体验不佳是城市NOA还没有开始大规模普及的主要原因。基于端到端与大模型的技术，成为过去一年提升智驾MPI的关键利器。特斯拉在去年的FSD V12.3版本中首先引入了这一技术。国内汽车行业也很快展开探索，理想、小鹏等车企，以及博世、华为、地平线、Momenta、元戎、卓驭等厂商目前都在研发端到端智驾版本。

许多行业大咖如英伟达CEO黄仁勋、小鹏汽车CEO何小鹏、长城汽车CTO吴会肖、腾讯智慧出行副总裁刘澍泉、元戎启行CEO周光等人在这年陆续体验了特斯拉的V12版本，对FSD给出了高度评价。理想、小鹏在近期的端到端版本上，也取得突飞猛进的进展。据理想官方数据，其从7月初到11月的「端到端智+VLM」智驾版本，MPI约有3.5倍提升；而小鹏也称其智驾系统上了端到端不到半年，拟人程度提升4倍以上。

在国内大举投入高阶智驾开发的博世，也将在今年底推出无图城市NOA，并在明年上马一段式端到端方案。这家国际Tier 1巨头刚刚在最近与腾讯签署了深化合作，加速下一阶段端到端大模型以及世界模型的开发。

眼下的时点，可以说国内外的头部厂商都成功验证了端到端大模型是提升城区智驾表现的正确路径，并且行业还远远没有触及到「Scaling Law」——数据规模增长带来性能提升——的上限。

冰山之下，汽车行业的研发挑战

端到端大模型带来的城市NOA体验以及MPI的提升是显性的。而新一代智驾的研发本身也发生了巨大的变化，并且95%以上是「隐藏在水面之下的冰山」。因此不少厂商今年在围绕AI与大模型进行组织架构变革。首先，从驱动数据迭代的「燃料」——数据开始。博世智能驾控事业部中国区总裁吴永桥认为，「从前融合、BEV + Transformer，到端到端，每一代技术对数据的需求都呈指数级增长。」

目前国内头部公司的端到端智驾版本，大约使用了数百万条级别的短视频进行训练，并向千万级的短视频推进。这些短视频时长在几十秒 - 几分钟不等，往往包含了多个连续的场景和驾驶行为。在开发城区智驾的3年中，博世在数据端「付出了巨大的代价」。「包括自建采集车队，包含司机与合规员。通过仿真生成的数据大部分只能用于一般性的测试场景。但真正有价值的、对用户体验有关键提升的数据数据，往往来自采集。」吴永桥说。这些数据如何采集、存储、筛选、标注，尤其智驾相关的数据还涉及地理信息安全和个人隐私。

作为一家国际Tier 1，博世还需要考虑采集、存储、训练、仿真等数据链路全流程的合规，并且在满足合规的情况下尽可能提高研发效率。

从2020年开始，博世就决定与腾讯深度合作，将数据和工具链部署在腾讯云的汽车云专区上。汽车专有云是一个既能保障严苛的数据合规要求，同时满足数据训练高效存取需求的方案。刘澍泉说，腾讯是第一家在国内建设自动驾驶专有云的企业，机房与网络独立于公有云，但沿袭了公有云同样的技术路线和架构，比公有云有更好的安全性，比私有云有更好的灵活性。

同时，有着图商资质的兜底，能够保障数据全流程满足最新的监管要求。博世是腾讯第一个自动驾驶专有云的客户。因为与腾讯专有云的合作，博世才能在极其严苛的合规条件下，18个月就干成了城市NOA的交付，吴永桥说。

端到端是算力军备赛，也是人才竞赛

海量的数据随后将投入到类似「炼金」的流程——训练。端到端基于模型训练（而不是基于工程师代码）的开发方式，决定了它可以进行大量并行的版本测试；加上模型训练本身的数据量惊人，所以这种开发方式是「算力吞金兽」。各个头部厂商的云端算力都在快速增长：

华为ADS云端算力数据是7.5 EFLOPS（截止9月智界R7上市发布会）；

理想当前的云端算力是6.83 EFLOPS，并计划年底拉到10 EFLOPS（截止11月广州车展）；

小鹏规划明年的云端算力是10 EFLOPS（截止11月小鹏P7+上市发布会）；

小米智驾能从集团申请到的算力上限是8.1 EFLOPS（截止11月广州车展）；

百度智驾能从集团调度的算力规模是5 EFLOPS（截止8月成都车展）；

腾讯云能提供的云端算力规模为16 EFLOPS（截止9月腾讯全球数字生态大会）。

此外，长安的自研团队也储备了数千张GPU卡（截止10月启源E07上市），并计划明年提升到万卡规模；极氪今年也投入了大量资金采购训练算力。至于特斯拉的算力规划，则是在100 EFLOPS级别。今年几家头部公司的共识是，「在未来几年内，用于智驾云端算力的年度算力支出，将达到10亿美元级。」相比于云端算力，只要投入足够多的资金就可以实现比较快速的扩张，车端的算力可以说是「捉襟见肘」。

当前行业中的高配算力方案——单片的OrinX，能够运行的最大模型规模在20 - 30亿参数。但如果考虑智驾需求的实时性，其运行帧率要达到10 - 20Hz，那它能运行的模型规模大概只有在10亿参数以内。因此尤其从车端算力制约的角度，并非完全是训练的数据规模越大、云端算力越大，效果就越好。

腾讯智慧出行副总裁刘澍泉有一个比较代表性的观点：「长期来看云端的算力需求始终会处于较大的缺口，但你是不是真的把每张卡都充分地利用起来了？以及真的要把所有的数据都投入到训练中吗，如何才能发挥数据真正的价值。」当前，使用云端大模型来做模型蒸馏部署到车端，已经接近成为行业共识。而云端的模型架构、车端的模型架构如何设计，如何打造一条围绕数据闭环的高效工具链，对全行业来说都是新课题。

「端到端本质上是，资本、人才、工程化能力的集合体。」腾讯智慧出行副总裁刘澍泉说。对主机厂来说，在端到端时代，是否要像过去一样全栈自研，从零再搭地基？刘澍泉的看法是，「大家越来越回归理性，各自做各自擅长的事情，做增量性的创新。」

解决端到端的安全底线：智驾地图与视觉语言模型

过去半年内，HiEV体验了几乎市面上所有厂商的端到端智驾版本，智驾系统随着数据量的增长，体验提升是肉眼可见的。但端到端也引入了新的问题——「上限很高，没有下限」，一位智驾行业的研发朋友如此调侃。

目前行业的普遍做法是由模型来输出轨迹规划，而由基于规则的控制算法来输出具体的油门开度、刹车力度以及方向盘转角，由此来约束车辆不会出现极端的安全问题。复杂路口的道路认知也是当前也是端到端智驾方案的「重灾区」，目前HiEV体验的多个车型智驾版本都非常容易出现选错道或者压实线的情况。吴永桥认为，「这确是无图方案普遍的难题。

第一，强大的感知是解决的基础；

第二，全国一些特别复杂的路口，可能需要地图做一些轻度挂接的元素，是非常有必要，而且极大改善用户的体验；

第三，真正做到大模型之后，需要大量的数据训练，如果未来这个路口是不是能收集10万个老司机开过的视频，再以后可能就不需要了，它到了这个地方可能就知道怎么看，可能需要更长时间才能实现。」

「今天来看，在纯无图完全只用SD和使用HD之间，还是有一个中间状态，要通过轻地图进行过渡。」刘澍泉认为，「为了增加安全冗余，城市路口的轻地图可能会是中期来看更稳健的方案。」

图商开始提供更加开放的地图数据服务，来满足轻图、无图方案的需求。比如腾讯的智驾云图，将地图数据以云服务的形式提供给车企，来保障更高效、灵活的地图更新。

探寻更高的上限和更高的下限，在2024年下半年，行业也逐渐形成共识，其中一种路径是世界模型，另一种方式则是运行车端的双系统，比如视觉语言模型（VLM）或者视觉语言动作模型（VLA）。吴永桥透露，博世将在明年推出一段式端到端的智驾方案，到2026年推出基于世界模型的版本。「现在整个智驾行业路线已经很明确，需要更大的算力，一部分算力跑端到端，另一部分算力跑视觉语言模型，这肯定是必然的方向。智驾就是算力、算法和数据。

算力我们和腾讯合作，同时博世在全球布局了很多的算力集群。算法，结合开源的论文和广大的中国人才，可以学得很快。数据在端到端之后大模型是最复杂的，最难获取高质量的数据，我们和大客户合作，可以获得高质量的数据。因为很多企业都不一定有资金有雄厚的资本。博世没有资本的裹胁，可以长期坚持自己的战略定力。我认为未来最核心的比拼是高质量的数据，是端到端大模型能够走得多远多快最核心的因素。」

端到端大模型席卷广州车展，智驾行业的一次技术大跃迁

冰山之下，汽车行业的研发挑战

端到端是算力军备赛，也是人才竞赛

解决端到端的安全底线：智驾地图与视觉语言模型

相关推荐