端到端智驾研究：理想如何从智驾追随者成为领先者

佐思汽研发布《2024-2025年端到端自动驾驶产业研究报告》。

端到端自动驾驶有全局式（一段式）和分段式（两段式）两种，其中全局式端到端思路清晰，研发成本远低于分段式，无需任何人工标注数据集，依赖谷歌、META、阿里和OpenAI等开发的多模态大模型。站在这些科技巨人肩上，性能比分段式端到端要好不少，但部署成本极高。

分段式的感知阶段仍然使用传统的CNN骨干网提取特征，在路径规划阶段使用端到端，性能虽然不如全局式，但部署成本比全局式端到端要低。这里的部署成本低是相对的，与目前主流的传统BEV+OCC+决策树相比，分段式的部署成本还是很高的。

全局式端到端的代表：WAYMO的EMMA

全局式端到端的代表有Waymo的EMMA，直接输入视频，没有骨干网，核心就是多模态大模型。分段式端到端的代表有UniAD。

分段式端到端的典型代表：UniAD整体架构

以能否得到反馈为标准，端到端自动驾驶的研究主要分为两类：一类是在模拟器比如CARLA中进行，规划的下一步指令可以被真实的执行；第二类主要是在已经采集的现实数据上进行端到端研究，主要是模仿学习，参考UniAD。端到端自动驾驶目前都是开环的，不能真正看到自己的预测指令执行后的效果。由于不能得到反馈，开环自动驾驶的测评很受限制，现在文献中常用的两种指标包括L2距离和碰撞率。

Collision Rate碰撞率: 通过计算预测轨迹和其他物体发生碰撞的概率，来评价预测轨迹的安全性

端到端自动驾驶最吸引人之处是性能提升潜力大，最早的端到端是UniAD，这是2022年底的论文，L2距离高达1.03米，2023年底就大幅提升至0.55米，2024年底进一步升到0.22米。地平线是端到端领域最活跃的公司之一，其技术发展路径也显示出了端到端路线整体的演进路径。UniAD出来之后，地平线立刻提出理念与UniAD接近的VAD，性能远超UniAD。这之后地平线转向全局端到端，第一个成果是HE-Driver，参数量比较大，然后是最近的Senna，参数量有所缩小，也是目前性能最佳的端到端方案之一。

Senna模型

部分端到端系统的核心仍然是传统算法BEVFormer，BEVFormer默认使用了车辆CAN总线信息，这里面包含了与自车速度，加速度，转向角相关的信息，这些都是显性的，对路径规划影响很大。这些端到端系统仍然需要监督训练，大量的人工标注就不可缺少，这让数据成本很高，再有既然借鉴了GPT的理念，为何不直接用LLM？于是有了理想汽车的DriveVLM。

理想DriveVLM的模型pipeline，主要包括场景描述、场景分析、层级规划三个主要模块设计。

DriveVLM场景描述模块的功能主要分为两部分——环境描述和关键物体识别。其中，环境描述主要是对共性的驾驶环境的描述，比如天气和道路状况等；关键物体识别则是为了找出对于当前驾驶决策产生较大影响的关键物体。环境描述共包括以下四个部分：天气、时间、道路类型、车道线状况。

区别于传统自动驾驶感知模块将所有待检测物体都检出，DriveVLM 专注于识别当前驾驶场景中最有可能影响自车驾驶决策的物体，称之为关键物体，因为全部都检出会消耗天量算力。得益于理想汽车累积的海量自动驾驶数据的预训练以及开源的大模型，VLM相较传统3D目标检测器能够更好的检出长尾的关键物体，比如路面杂物或者非常见动物等。

对于每个关键物体，DriveVLM会分别输出其语义类别c和对应的2D目标框b。预训练来自NLP大模型领域，因为NLP用的标注数据很少，很昂贵，预训练首先利用海量的未标注数据训练，找到语言结构特征，然后再利用prompt做标签，微调来解决具体的下游任务。

DriveVLM彻底放弃了BEVFormer这种传统算法做核心，只用多模态大模型。理想汽车DriveVLM使用阿里Qwen-VL大模型，参数量高达97亿，输入清晰度选择448*448这种最低清晰度，用英伟达Orin做推理运算。

理想汽车如何从高端智驾追随者成为领先者？

2023年初，理想汽车在NOA大战中还是一个落后者，但2023年开始全力投入高阶自动驾驶研发后，2024年经过多次NOA版本升级，到2024年11月底率先推出车位到车位全场景自动驾驶，从而成为高阶智驾（NOA）量产的领先者。

回顾理想汽车端到端智驾的发展历程，除了自身数十万用户提供的数据支持外，还与多家合作伙伴开展端到端模型的研发合作。DriveVLM就是理想汽车和清华大学合作推出的。

除了上面提到的DriveVLM，理想汽车还与上海期智研究院、复旦大学等推出STR2，与极佳科技、中国科学院自动化研究所等单位提出DriveDreamer4D，与清华大学合作推出MoE方案等。

MoE混合专家架构

为了解决大模型参数太多，计算量太大的弊病，理想汽车与清华大学合作，采用了MoE即混合专家架构。混合专家（Mixture of Experts，简称MoE）是一种集成学习方法，它通过将多个专业化的子模型（即“专家”）组合起来，形成一个整体模型。每一个“专家”都在其擅长的领域内做出贡献。而决定哪个“专家”参与解答特定问题的，是一个称为“门控网络”的机制。每个专家模型可以专注于解决特定的子问题，而整体模型则能够在复杂的任务中获得更好的性能。混合专家方法适用于处理大规模数据集，能够有效地应对数据量巨大和特征复杂的挑战。这是因为它可以并行处理不同的子任务，充分利用计算资源，提高模型的训练和推理效率。

STR2路径规划方案

STR2是一种基于Vision Transformer（ViT）和混合专家（MoE）架构的运动规划方案，由理想汽车联合来自上海期智研究院、复旦大学等高校机构的研究人员共同开发。

STR2的核心思路是利用MoE架构在训练过程中通过专家路由来解决模态崩溃和奖励平衡问题，从而提高模型在未知或少见情况下的泛化能力。

DriveDreamer4D世界模型

2024年10月底，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D。

随后，基于世界模型的视频生成能力，并利用更新轨迹后得到的结构化信息作为控制条件，可以合成新轨迹的视频。最后，原始轨迹视频与新轨迹视频相结合，进行 4DGS 模型的优化。