加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 为什么自动驾驶需要的算力越来越大呢?
    • 高算力必然带来更好的体验吗?
    • 点评:不服跑个分,在自动驾驶芯片领域行得通吗?
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

不服跑个分,在自动驾驶芯片领域行得通吗?

2023/04/11
3019
阅读需 15 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论
引言:在自动驾驶领域,传统处理器的竞争规则正发生急速的变化。一般来说,人工智能的发展主要取决于两大基本要素:算力和算法。自动驾驶作为目前技术投入较大、商业落地较早、市场前景广阔的人工智能应用,其主控芯片的算力也被业内拿来作为评价优劣的主要标准。

为什么自动驾驶需要的算力越来越大呢?

仅仅还在几年之前,ADAS智能驾驶辅助的芯片AI算力才几个TOPS,但转眼间100TOPS已经成为中高端自动驾驶车型的标配了。

为何自动驾驶需要的算力越来越大呢?

第一个原因是传感器的增多。一辆自动驾驶车辆装载的传感器,一般包括前视、后视、环视摄像头,再加上激光雷达毫米波雷达,未来车上的传感器数量越来越多。传感器数量的增多带来的是传感器数据量呈现几何数量的增加。如果不对相关数据进行压缩或结构化处理,一天能收集到几百TB的数据。这就带来一个需求,需要对这些本地数据进行分析、整理、压缩,再上传到云端。这要求在车端拥有强大的数据分析能力和计算能力。

第二个原因是大算力模型的突破。ChatGPT让业内看到了高计算量和大参数量模型的结合,对于算力提出了越来越高的要求。

在自动驾驶的早期1.0时代,整套系统从感知到地图融合再到规划控制都是基于规则构建的。辅助驾驶功能更强调决策控制,如横向控制和纵向控制。然而,基于规则的系统与深度学习神经网络不同,无法进行端到端训练,导致大量规则调试。规则系统面临的挑战包括难以预期的延迟和响应。尽管1.0时代部分模块采用数据驱动方法,但整个系统仍以人制订的规则为主导。

进入了自动驾驶的2.0时代,由人制订的规则开始让位于数据驱动,利用神经网络为代表的智能计算来取代逻辑计算。ChatGPT就是一个典型的智能计算的代表。以上图为例,蓝色部分是智能计算,可以用数据驱动方式软件2.0的方式来实现。天蓝色部分则是逻辑计算,通过程序表达规则跑在CPU上,这可以理解为是两代的计算架构。事实上,智能计算对算力需求在7年间提升6倍,如图像识别和自然语言处理任务性能持续提升,但背后算力需求也在快速增长。

简单来说,传统的计算架构是通过程序对各种规则进行描述。在自动驾驶领域,就是通过很多的ECU来分别实现设置好的程序。以座舱域为例,座舱域中的HMI功能对用户了解自动驾驶系统的状态、性能、特点和功能非常重要,有助于建立人机互信。特别是L2+、L2++和L3级别的自动驾驶中,没有良好的HMI,用户会担忧自动驾驶的状态。而HMI则主要用到智能计算。因此,从大趋势来讲,整个芯片占比越来越高的一定是智能计算,而通用逻辑及规则计算的占比也会缓慢增长,但是增长速度远远比不上智能计算。智能计算的比例提升才是算力需求增长的关键。

第三个变化是汽车电子电气架构的变化。未来汽车电子电气架构将变得更加集中与高效。随着汽车电气架构从分散的ECU到集中的DCU域控制器,再走向中央计算,各个车控底盘控制呈现中央高度集中式的高效计算和灵活快速计算。智能计算逐步取代逻辑计算,成为核心。类似人体神经系统,中央计算相当于大脑,控制域则类似脊柱和神经末梢,需要快速响应但算力要求相对较低。高成本、高功耗的计算无法部署在车辆各处,仿生角度看也是合理的。

中央计算使汽车硬件升级更容易,如同服务器可插拔。以前,更换车载硬件或域控较困难,因为专门设计的硬件盒子涉及供电、散热等定制设计。未来电子电气架构将实现高效计算与快速响应,为汽车智能化发展奠定基础。

第四个变化是芯片计算架构的变化。PC时代以CPU为王,智能手机时代CPU和GPU的重要性逐渐平衡,多媒体与图形渲染需求增加。到了智能汽车时代,AI计算的需求大增,如果仍然用GPU来做AI运算,成本太高,这就需要重新设计专用计算架构。于是各种NPU、XPU应运而生。

高算力必然带来更好的体验吗?

既然算力需求在自动驾驶中越来越大,那么是否高算力就会带来好的用户体验呢?算力是否是衡量自动驾驶芯片的唯一标准?

当然不是,实际上在自动驾驶领域,不少高端车型在量产时搭配了高算力,但实际体验并不出众,与低算力的车型体验并没有实际差别。而由于芯片受摩尔定律影响,有可能一年后同等算力的平台价格会大幅度降低。

特斯拉为例,发布HW3.0时部署了两颗72TOPS算力芯片,总算力为144TOPS。与基于英伟达平台的HW2.5相比,峰值算力提升仅几倍,但图像处理帧率提升了21倍。因此,虽然峰值算力提升有限,实际处理性能却大幅增长。

另一方面,物理算力越大带来的成本也会越高,但不一定会带来真实算力的提升。什么是真实的算力?不是每秒钟能进行多少次的计算,而是每秒钟能处理多少帧的图像。很多厂商宣传的算力是CPU、GPU的频率,NPU的TOPS,但用户能体验到的则是FPS。TOPS和FPS之间差异大,因为算法快速演进,计算架构、软硬件设计优秀程度差异很大。

摩尔定律指出算力每18个月翻倍,但近十几年速度减缓,半导体芯片性能提升接近饱和。在后摩尔定律时代,芯片优化需先进工艺制程、封装架构,以及软硬件架构支撑高速成长。传统芯片厂商关注的是每瓦或每美金的峰值算力,给出的则是每秒计算次数的提升。但对于自动驾驶厂商来说,他们需要的是真实计算效能和每秒处理帧率的提升。实际上过去9年中,图像识别、语音识别、自然语言处理任务所需计算次数每9-14个月降低一半,这得益于算法的迅速提升。可以说,算法的提升已经远远超过了摩尔定律的发展。

从最新的神经网络算法的演进趋势来看,贝叶斯架构高效支持Transformer,如Swin Transformer,获2021年计算机视觉领域最高奖马尔奖,是目前效果最好的解决图像识别、检测、分割问题的基础架构。

2017年发布自研的FSD芯片时,特斯拉创始人马斯克便以此前应用的英伟达Drive PX2作比,从算力来看FSD是Drive PX2的3倍,但在执行自动驾驶任务时,其FPS是后者的21倍。GPU的看家本领便是图像识别。为何GPU发明者英伟达的Orin会在测试中表现不及算力只有一半的地平线征程5?部分核心原因在于安培(Ampere)架构和贝叶斯(Bayes)架构设计出发点的差异。

地平线的征程5芯片于2021年发布,拥有128TOPS超强算力,是国内首款百T算力芯片。目前征程5已用于10个车型,去年出货10万+。与主要竞品(GPU架构,峰值算力2倍以上)对比,征程5在处理速度方面更快。性能达到1500+FPS,端到端处理延迟最快60毫秒,功耗不超30瓦。之所以能做到这一点,得益于地平线的BPU架构。

BPU是地平线自主设计研发的创新性智能计算架构,具有高性能、低功耗、低成本等优势,可将算法集成在智能计算平台上,提供设备端上软硬结合的智能计算解决方案。贝叶斯是地平线推出的第三代智能计算架构,专为高等级智能驾驶应用打造,具备高性能、低能耗、低延迟的特点,凝聚了对深度学习和智能驾驶场景的深度洞察。此外,地平线智能计算开发平台基于征程5打造,包含芯片开发套件、量产级硬件参考设计、软件开发平台和参考算法等,生态伙伴能够在地平线的芯片上快速部署智能驾驶算法应用,开发差异化产品方案,抢占市场先机。

地平线正在研发名为纳什的下一代BPU架构,相对于征程5芯片的BPU有显著改善。纳什采用了更深层次的存储架构体系,同时提升了计算阵列规模,从而进一步提升了峰值算力。此外,纳什还增强了数据排布的转换引擎和加入了高性能的浮点加速单元,从而使得算法的精度和可验证性都得到了很好的提升。另外,地平线科技的引擎兼数据流动也考虑了能效和灵活性。数据排布的转换引擎大幅增强,能更好地应对新形态算法,如以Transformer为代表的算法对于数据的data layout进行更灵活、高效的转换需求。这是非常重要的,因为在整个Transformer算法中有大量的数据操作,这可能会形成计算架构的瓶颈。同时,地平线还首次加入了一个高性能的浮点加速单元,使得算法的精度和可验证性都得到很好的提升。

点评:不服跑个分,在自动驾驶芯片领域行得通吗?

最后,如何评价一款好的自动驾驶芯片?对于刚刚接触自动驾驶汽车的消费者来说,要快速的对不同厂商、不同品牌型号建立一个初步印象,参数对比是一个比较直接的方法。

自动驾驶芯片主要竞争者与产品对比,来源:光大证券研究所

在2022年之前,自动驾驶芯片的市场宣传主要还是按照AI算力、功耗、算力/功耗、制程等参数进行对比,这种宣传方式不能说是错的。不过这种参数确实无法直接反应用户的真实体验。地平线联合创始人兼CTO黄畅博士认为,一款好的自动驾驶芯片应该是六边形战士,同时具备高能效比、算力、灵活性、适配性、安全认证和开发便捷性。也就是说,符合木桶原理,自动驾驶芯片的最终用户体验取决于最短的那一块板。

不过到了2022年,似乎游戏规则发生了变化。英伟达(NVIDIA)推出的Thor芯片系统在自动驾驶和智能座舱领域引发了巨大震动,直接将算力干到了2000TOPS。这就让自动驾驶领域的算法公司和准备自研芯片的车企面临压力。过去受限于算力限制,迫使芯片和算法公司不断研究新的算法和更高效的专用芯片,寻求在有限的算力下实现更高效、轻量化的解决方案。然而,英伟达推出Thor芯片,承诺两年内提供八倍算力,使得4000TOPS成为可能,这似乎使得算法优化变得不再那么重要。

这让人想起比尔盖茨与乔布斯的逻辑:乔布斯追求专有程序、专有硬件,精打细算;而比尔盖茨则依赖硬件厂商解决问题。如今,英伟达正是采用这种方法,用算力暴力的解决算法精度问题。如果这条路真的行得通,就算某些厂商的算法不够好,但仍然可以通过超强的算力来弥补算法的不足。

所以分析了半天,最后似乎又回到了起点:自动驾驶芯片仍然是算力为王?

笔者认为应该分阶段来看待这个事情。现阶段高算力必然带来高成本,不是所有的车厂和消费者会为高算力买单,这取决于他们自身的定位。未来自动驾驶市场将在十年内转向低算力、中算力和高算力的全场景市场。硬件将随着普及成本进一步降低。到时候可能市场会自发的形成高中低三个不同的市场,分别对应高中低三种不同的算力。而这三种市场将随着硬件成本的降低不断转移。比如目前50-100tops的算力范围属于中高端市场,但未来有可能平民化,而2000tops的产品则将在一段时间成为高端旗舰车型标配。

最终有一天,市场和消费者都会对自动驾驶芯片的算力回归理性,选择最适合自己的功能和需求。事实上,这种现象在手机市场已经发生过一次了。曾几何时新手机发布,厂商动不动“不服跑个分”,但到了今天消费者显然已经不再把手机芯片跑分当成唯一指标。大家都意识到,合适的硬件算力和算法匹配才能发挥最佳智能化效果,综合实力才是衡量智能芯片的最重要因素。

最后,笔者认为,随着算力提升的速度加快,以及硬件成本的下降,未来智能汽车领域将出现一个新的硬件升级市场:通过更换运算模块来进行算力提升。这种现象在PC市场也已经发话谁能过一次了。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATXMEGA192D3-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64
$5.62 查看
ATXMEGA16D4-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下载ECAD模型
$3.06 查看
MCF52258CAG66 1 Freescale Semiconductor MCF522XX 32-bit MCU, ColdFire V2 core, 512KB Flash, 66MHz, QFP 144
$12.68 查看
地平线

地平线

地平线是边缘人工智能芯片的全球领导者。得益于前瞻性的软硬结合理念,地平线自主研发兼具极致效能与开放易用性的边缘人工智能芯片及解决方案,可面向智能驾驶以及更广泛的通用 AI 应用领域,提供包括高效能边缘 AI 芯片、丰富算法IP、开放工具链等在内的全面赋能服务。目前,地平线是国内唯一一家实现车规级人工智能芯片量产前装的企业。

地平线是边缘人工智能芯片的全球领导者。得益于前瞻性的软硬结合理念,地平线自主研发兼具极致效能与开放易用性的边缘人工智能芯片及解决方案,可面向智能驾驶以及更广泛的通用 AI 应用领域,提供包括高效能边缘 AI 芯片、丰富算法IP、开放工具链等在内的全面赋能服务。目前,地平线是国内唯一一家实现车规级人工智能芯片量产前装的企业。收起

查看更多

相关推荐

电子产业图谱