不服跑个分，在自动驾驶芯片领域行得通吗？

引言：在自动驾驶领域，传统处理器的竞争规则正发生急速的变化。一般来说，人工智能的发展主要取决于两大基本要素：算力和算法。自动驾驶作为目前技术投入较大、商业落地较早、市场前景广阔的人工智能应用，其主控芯片的算力也被业内拿来作为评价优劣的主要标准。

为什么自动驾驶需要的算力越来越大呢？

仅仅还在几年之前，ADAS 智能驾驶辅助的芯片AI算力才几个TOPS，但转眼间100TOPS已经成为中高端自动驾驶车型的标配了。

为何自动驾驶需要的算力越来越大呢？

第一个原因是传感器的增多。一辆自动驾驶车辆装载的传感器，一般包括前视、后视、环视摄像头，再加上激光雷达、毫米波雷达，未来车上的传感器数量越来越多。传感器数量的增多带来的是传感器数据量呈现几何数量的增加。如果不对相关数据进行压缩或结构化处理，一天能收集到几百TB的数据。这就带来一个需求，需要对这些本地数据进行分析、整理、压缩，再上传到云端。这要求在车端拥有强大的数据分析能力和计算能力。

第二个原因是大算力模型的突破。ChatGPT让业内看到了高计算量和大参数量模型的结合，对于算力提出了越来越高的要求。

在自动驾驶的早期1.0时代，整套系统从感知到地图融合再到规划控制都是基于规则构建的。辅助驾驶功能更强调决策控制，如横向控制和纵向控制。然而，基于规则的系统与深度学习神经网络不同，无法进行端到端训练，导致大量规则调试。规则系统面临的挑战包括难以预期的延迟和响应。尽管1.0时代部分模块采用数据驱动方法，但整个系统仍以人制订的规则为主导。

进入了自动驾驶的2.0时代，由人制订的规则开始让位于数据驱动，利用神经网络为代表的智能计算来取代逻辑计算。ChatGPT就是一个典型的智能计算的代表。以上图为例，蓝色部分是智能计算，可以用数据驱动方式软件2.0的方式来实现。天蓝色部分则是逻辑计算，通过程序表达规则跑在CPU上，这可以理解为是两代的计算架构。事实上，智能计算对算力需求在7年间提升6倍，如图像识别和自然语言处理任务性能持续提升，但背后算力需求也在快速增长。

简单来说，传统的计算架构是通过程序对各种规则进行描述。在自动驾驶领域，就是通过很多的ECU来分别实现设置好的程序。以座舱域为例，座舱域中的HMI功能对用户了解自动驾驶系统的状态、性能、特点和功能非常重要，有助于建立人机互信。特别是L2+、L2++和L3级别的自动驾驶中，没有良好的HMI，用户会担忧自动驾驶的状态。而HMI则主要用到智能计算。因此，从大趋势来讲，整个芯片占比越来越高的一定是智能计算，而通用逻辑及规则计算的占比也会缓慢增长，但是增长速度远远比不上智能计算。智能计算的比例提升才是算力需求增长的关键。

第三个变化是汽车电子电气架构的变化。未来汽车电子电气架构将变得更加集中与高效。随着汽车电气架构从分散的ECU到集中的DCU域控制器，再走向中央计算，各个车控底盘控制呈现中央高度集中式的高效计算和灵活快速计算。智能计算逐步取代逻辑计算，成为核心。类似人体神经系统，中央计算相当于大脑，控制域则类似脊柱和神经末梢，需要快速响应但算力要求相对较低。高成本、高功耗的计算无法部署在车辆各处，仿生角度看也是合理的。

中央计算使汽车硬件升级更容易，如同服务器可插拔。以前，更换车载硬件或域控较困难，因为专门设计的硬件盒子涉及供电、散热等定制设计。未来电子电气架构将实现高效计算与快速响应，为汽车智能化发展奠定基础。

第四个变化是芯片计算架构的变化。PC时代以CPU为王，智能手机时代CPU和GPU的重要性逐渐平衡，多媒体与图形渲染需求增加。到了智能汽车时代，AI计算的需求大增，如果仍然用GPU来做AI运算，成本太高，这就需要重新设计专用计算架构。于是各种NPU、XPU应运而生。

高算力必然带来更好的体验吗？

既然算力需求在自动驾驶中越来越大，那么是否高算力就会带来好的用户体验呢？算力是否是衡量自动驾驶芯片的唯一标准？

当然不是，实际上在自动驾驶领域，不少高端车型在量产时搭配了高算力，但实际体验并不出众，与低算力的车型体验并没有实际差别。而由于芯片受摩尔定律影响，有可能一年后同等算力的平台价格会大幅度降低。

以特斯拉为例，发布HW3.0时部署了两颗72TOPS算力芯片，总算力为144TOPS。与基于英伟达平台的HW2.5相比，峰值算力提升仅几倍，但图像处理帧率提升了21倍。因此，虽然峰值算力提升有限，实际处理性能却大幅增长。

另一方面，物理算力越大带来的成本也会越高，但不一定会带来真实算力的提升。什么是真实的算力？不是每秒钟能进行多少次的计算，而是每秒钟能处理多少帧的图像。很多厂商宣传的算力是CPU、GPU的频率，NPU的TOPS，但用户能体验到的则是FPS。TOPS和FPS之间差异大，因为算法快速演进，计算架构、软硬件设计优秀程度差异很大。

摩尔定律指出算力每18个月翻倍，但近十几年速度减缓，半导体芯片性能提升接近饱和。在后摩尔定律时代，芯片优化需先进工艺制程、封装架构，以及软硬件架构支撑高速成长。传统芯片厂商关注的是每瓦或每美金的峰值算力，给出的则是每秒计算次数的提升。但对于自动驾驶厂商来说，他们需要的是真实计算效能和每秒处理帧率的提升。实际上过去9年中，图像识别、语音识别、自然语言处理任务所需计算次数每9-14个月降低一半，这得益于算法的迅速提升。可以说，算法的提升已经远远超过了摩尔定律的发展。

从最新的神经网络算法的演进趋势来看，贝叶斯架构高效支持Transformer，如Swin Transformer，获2021年计算机视觉领域最高奖马尔奖，是目前效果最好的解决图像识别、检测、分割问题的基础架构。

2017年发布自研的FSD芯片时，特斯拉创始人马斯克便以此前应用的英伟达Drive PX2作比，从算力来看FSD是Drive PX2的3倍，但在执行自动驾驶任务时，其FPS是后者的21倍。GPU的看家本领便是图像识别。为何GPU发明者英伟达的Orin会在测试中表现不及算力只有一半的地平线征程5？部分核心原因在于安培（Ampere）架构和贝叶斯（Bayes）架构设计出发点的差异。

地平线的征程5芯片于2021年发布，拥有128TOPS超强算力，是国内首款百T算力芯片。目前征程5已用于10个车型，去年出货10万+。与主要竞品（GPU架构，峰值算力2倍以上）对比，征程5在处理速度方面更快。性能达到1500+FPS，端到端处理延迟最快60毫秒，功耗不超30瓦。之所以能做到这一点，得益于地平线的BPU架构。

BPU是地平线自主设计研发的创新性智能计算架构，具有高性能、低功耗、低成本等优势，可将算法集成在智能计算平台上，提供设备端上软硬结合的智能计算解决方案。贝叶斯是地平线推出的第三代智能计算架构，专为高等级智能驾驶应用打造，具备高性能、低能耗、低延迟的特点，凝聚了对深度学习和智能驾驶场景的深度洞察。此外，地平线智能计算开发平台基于征程5打造，包含芯片开发套件、量产级硬件参考设计、软件开发平台和参考算法等，生态伙伴能够在地平线的芯片上快速部署智能驾驶算法应用，开发差异化产品方案，抢占市场先机。

地平线正在研发名为纳什的下一代BPU架构，相对于征程5芯片的BPU有显著改善。纳什采用了更深层次的存储架构体系，同时提升了计算阵列规模，从而进一步提升了峰值算力。此外，纳什还增强了数据排布的转换引擎和加入了高性能的浮点加速单元，从而使得算法的精度和可验证性都得到了很好的提升。另外，地平线科技的引擎兼数据流动也考虑了能效和灵活性。数据排布的转换引擎大幅增强，能更好地应对新形态算法，如以Transformer为代表的算法对于数据的data layout进行更灵活、高效的转换需求。这是非常重要的，因为在整个Transformer算法中有大量的数据操作，这可能会形成计算架构的瓶颈。同时，地平线还首次加入了一个高性能的浮点加速单元，使得算法的精度和可验证性都得到很好的提升。

点评：不服跑个分，在自动驾驶芯片领域行得通吗？

最后，如何评价一款好的自动驾驶芯片？对于刚刚接触自动驾驶汽车的消费者来说，要快速的对不同厂商、不同品牌型号建立一个初步印象，参数对比是一个比较直接的方法。

自动驾驶芯片主要竞争者与产品对比，来源：光大证券研究所

在2022年之前，自动驾驶芯片的市场宣传主要还是按照AI算力、功耗、算力/功耗、制程等参数进行对比，这种宣传方式不能说是错的。不过这种参数确实无法直接反应用户的真实体验。地平线联合创始人兼CTO黄畅博士认为，一款好的自动驾驶芯片应该是六边形战士，同时具备高能效比、算力、灵活性、适配性、安全认证和开发便捷性。也就是说，符合木桶原理，自动驾驶芯片的最终用户体验取决于最短的那一块板。

不过到了2022年，似乎游戏规则发生了变化。英伟达（NVIDIA）推出的Thor芯片系统在自动驾驶和智能座舱领域引发了巨大震动，直接将算力干到了2000TOPS。这就让自动驾驶领域的算法公司和准备自研芯片的车企面临压力。过去受限于算力限制，迫使芯片和算法公司不断研究新的算法和更高效的专用芯片，寻求在有限的算力下实现更高效、轻量化的解决方案。然而，英伟达推出Thor芯片，承诺两年内提供八倍算力，使得4000TOPS成为可能，这似乎使得算法优化变得不再那么重要。

这让人想起比尔盖茨与乔布斯的逻辑：乔布斯追求专有程序、专有硬件，精打细算；而比尔盖茨则依赖硬件厂商解决问题。如今，英伟达正是采用这种方法，用算力暴力的解决算法精度问题。如果这条路真的行得通，就算某些厂商的算法不够好，但仍然可以通过超强的算力来弥补算法的不足。

所以分析了半天，最后似乎又回到了起点：自动驾驶芯片仍然是算力为王？

笔者认为应该分阶段来看待这个事情。现阶段高算力必然带来高成本，不是所有的车厂和消费者会为高算力买单，这取决于他们自身的定位。未来自动驾驶市场将在十年内转向低算力、中算力和高算力的全场景市场。硬件将随着普及成本进一步降低。到时候可能市场会自发的形成高中低三个不同的市场，分别对应高中低三种不同的算力。而这三种市场将随着硬件成本的降低不断转移。比如目前50-100tops的算力范围属于中高端市场，但未来有可能平民化，而2000tops的产品则将在一段时间成为高端旗舰车型标配。

最终有一天，市场和消费者都会对自动驾驶芯片的算力回归理性，选择最适合自己的功能和需求。事实上，这种现象在手机市场已经发生过一次了。曾几何时新手机发布，厂商动不动“不服跑个分”，但到了今天消费者显然已经不再把手机芯片跑分当成唯一指标。大家都意识到，合适的硬件算力和算法匹配才能发挥最佳智能化效果，综合实力才是衡量智能芯片的最重要因素。

最后，笔者认为，随着算力提升的速度加快，以及硬件成本的下降，未来智能汽车领域将出现一个新的硬件升级市场：通过更换运算模块来进行算力提升。这种现象在PC市场也已经发话谁能过一次了。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA384C3-MH	1	Microchip Technology Inc	IC MCU 8BIT 384KB FLASH 64QFN		$8.79	查看
STM32F429IET6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT	ECAD模型下载ECAD模型	$23.92	查看
STM32F103CBT6	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下载ECAD模型	$11.49	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA384C3-MH

Microchip Technology Inc

IC MCU 8BIT 384KB FLASH 64QFN

$8.79

查看

STM32F429IET6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 180 MHz CPU, ART Accelerateur, Chrom-ART Accelerator, FMC with SDRAM, TFT