作者 | 朱世耘,编辑 | 章涟漪
“新型基础设施正在成为新一轮科技革命和产业变革的关键支撑和重要物质保障。” 发改委在“十四五”规划《纲要》中,如此定义“新基建”的意义和作用。
如今,地平线拿出了智驾产业的“新基建”——新一代征程6系列车载智能计算方案。其中,旗舰版算力高达560 TOPS,对BEV、Transformer的支持效率相比主流竞品,高出了11倍之多。
“征程6旗舰,为新一代城区NOA而生。”地平线芯片产品规划与市场总经理尹凌冰在11月18日的沟通会上反复强调。
“进城、开城”,是今年各家发布会上最热的技术卖点,和折扣最大的落地功能。行业巨大的进城热情和难以兑现的用户体验背后,是上层技术方案、中层软硬件设施和底层产业生态都仍在0到1的探索和建设过程中。
截至目前,地平线征程5被量产的高阶场景仍是高速NOA。为城区场景而生的征程6,能否成为行业“进城、开城”的新基建?
01、进城,进入“无人区”
“城区面临的挑战,不管从研究角度、算法的演进,还是嵌入式超级计算机系统的量产工程讲,面临的挑战都很大。” 尹凌冰在演讲中表示。
作为计算平台,征程6面对着全然不同的计算任务。
目前,高速NOA的硬件方案已逐渐固化:大多以2(前视摄像头)-7个(增加周视、后视)摄像头、5个毫米波雷达、12个超声波雷达作为感知硬件,32-128TOPS算力芯片。算法方案则也基本趋同:或基于规则的感知和规控算法,或由CNN类小模型组成感知算法,配合规则的规控算法。其中少数头部玩家开始将BEV、transformer算法引入高速NOA的感知端。
相对简单的场景、较小的数据规模和成熟算法。被燃油车时代的豪华品牌验证过,服务于规则算法和CNN类算法的计算平台,以及网络数据带宽等“基础设施”,仍可满足 L2级和高速NOA的功能实现。
但没有人让“机器”在熙熙攘攘的城市中“自动驾驶”过。能够满足城市场景需求的智驾软硬件方案,仍在从0到1的探索当中。
硬件方案中,11个摄像头仍觉不足,要不要激光雷达,是激光雷达还是4D毫米波,前后角雷达先去哪个?都是悬而未决,各自验证的命题。
算法方案则处在“摸着特斯拉过河”,和无特斯拉可“摸”的未知领域:
已被验证有效的Transformer类模型,相较传统的CNN类模型不仅规模庞大,而且难以直接量化部署到“CNN时代”的部分类型算子上和服务框架下,性能和精度表现不佳。
感知、预测、规划、控制四部分的算法仍是“新老同堂”:感知、预测模块算法开始以数据驱动的软件2.0(神经网络)为主,头部玩家甚至走到了模块内的端到端。但在规划和控制模块,仍以规则驱动的软件1.0(手写代码)为主。
更重要的是,进城后规划控制难度极速提升,导致基于规则的算法系统复杂度几何级增长,也迫使行业对占用网络、蒙特卡洛树搜索等全新的新模型、大模型的探索和实践。
尽管技术方案尚未稳定,但市场的耐心并不多。
特斯拉FSD已经划下万元级的高阶智驾成本线,华为、小鹏的“开城”计划将于2024年快速落地,“高性能、高速度、低成本”进入“城市智驾”中国智能车迎来了“城市NOA”的赛点,而且后来的玩家希望“高性能、高速度、低成本”的进入赛道。
在高度不确定的“进城”进程中,征程6要提供确定性。
02、不只560T
征程6这次首先补齐了在算力上的短板,560Tops的算力较之英伟达Orin-X,是一块更比两块大。
“旗舰版560Tops的算力,是由详细的软硬件仿真系统(试验)来确定的,结合了业界算法和性能演进的趋势。”尹凌冰向《赛博汽车》表示:“城市路况更加复杂,感知要更高频地观察世界,高阶的PNC(规划控制)也是非常复杂的一个系统,对CPU、BPU都有更高的要求,所以征程6旗舰版的算力有非常大的飞跃。”
征程6旗舰版在业内首次将CPU、BPU、GPU和MCU四种计算单元集成在一块芯片上。此前,作为执行控制器的MUC往往是单独在主算力芯片之外,以硬隔离的方式实现安全性。
560Tops中,地平线自研的BPU加速核自然是主体,在自动驾驶整体算法向神经网络、深度学习转型的确定性下,满足Transformer、蒙特卡洛树搜索类大模型巨大的算力需求。
与此同时,征程6旗舰版此次通过采用14个ARM A78AE核,相比征程5有了大幅提升,CPU算力超350KDMIPS(orin采用12个A78AE核,约为200 KDMIPS);MCU相较行业传统主流,算力提升超过3.5倍。
因为城市场景中,规划和控制任务都变得越来越复杂。
目前,头部玩家已开始探索用端到端的神经网络完成预测任务,但仍需要后端的决策和控制系统通过逻辑计算优化得出结论。而且由于城市场景中交通参与者数量和类型众多、运动模式众多、交通法规复杂多变,交通逻辑的复杂程度显然远超高速场景。
面向逻辑类计算的CPU为复杂的城市场景决策提供算力支持。MCU算力提升后,则可不再仅部署基础规则,是将控制所需的函数部署在车端,一方面扩大可计算的场景,另一方面则提升控制算法系统的驾乘表现。
对GPU的应用上,尹凌冰表示,目前GPU更多面向舱内感知以及SR上智驾相关的渲染集成。
03、“时间”就是生命
“宁停三分,不抢一秒”的规则背后,是高度时间敏感的城市场景。
按照60公里/小时这样通常的城市路况时速计算,其平均刹车距离为22.85米,即1.4秒左右的反应时间。MIT的研究显示,人类从观察路况到做出反应的时间在390-600毫秒(1秒=1000毫秒)之间,但对于智能驾驶系统来说,反应时间是不确定的。
神经网络的运算速度通常在几十毫秒之内。但由于城市场景对网络规模和系统复杂度的要求大幅增强,子系统时延的叠加,导致整体智驾系统能否在“安全时间”内运行的不确定性随之增大。
对于要进城的征程6旗舰版来说,保证系统跑进“安全时间”尤为重要:一方面要不断降低时延,另一方面则要确定每个子系统的时延情况,保证整个系统的时延预期。
要想快,先修路。征程6旗舰版可接入万兆以太网。更重要的是,在芯片上地平线修起了“高速”:自研SOC总线,构建起CPU、BPU、GPU、MCU之间的数据传输通路。
此前,业内主要采用ARM等大厂提供的总线架构。但“从流量控制、带宽、高效组合各个计算单元等需求来说,业内已有技术不太够。所以基于多年积累,我们决定自研总线” 尹凌冰表示。
从结果来看,征程6旗舰版片上的带宽达到TB级,较之业内优秀水平提高了2倍,加上先进的QoS(Quality of Service,服务质量,一种网络安全机制,用来解决网络延迟和阻塞等问题)调度技术,获得非常高的确定性时延,为确保系统在“安全时间”范围内运行提供前提。
值得注意的是,该自研SoC总线全链路ASIL—D(最高车规安全等级),其中CPU的14个A78AE核上首创灵活可配的lockstep(锁步),灵活分配两个处理器构成相互监控的冗余系统,不间断检查程序运行,建立故障抑制区,防止故障蔓延;MCU通过双域通信的自研协议桥,与同在片上的主域实现了堪比物理隔离的高安全强隔离。
提升各个子系统效率也很重要。
在输入端,征程6旗舰版支持接入24路高清摄像头(1800万前置摄像头)、激光雷达、4D毫米波雷达、超声波雷达、智驾地图和高精惯导数据,以及DMS、OMS、CMS、TOF等多种座舱交互数据。其中,通过优化ISP (图像信号处理),比主流竞品的数据吞吐量提升了三倍,包括24bit动态范围,延迟大幅度降低80%
存储方面,征程6旗舰版采用全新的片上存储系统,针对BPU子系统和大参数Transformer的特性,设计L0M、L1M、L2M三级存储系统,“让BPU整个系统能够算的快,数据也能够供得上,工作在非常好的效率下” 尹凌冰表示。
04、地平线版“CUDA核”
除大算力和片上、系统间大带宽的储备外,如何为不确定的算法技术准备确定性的计算平台?地平线在征程6所应用的纳什架构上,构建出了的自己的“CUDA核”。
英伟达的计算核心,包含可支持FP16、INT8/INT4/Binary、TF32、 BF16、 FP64等多种数据精度的张量核,以及FP32、FP64、INT32等主流精度的向量加速单元CUDA核,并通过2006年发布的CUDA™通用并行计算架构实现软硬解耦,对支持不同精度的算子进行灵活编程。
英伟达CEO黄仁勋在CUDA生态积累14年后放言:“ 英伟达不是游戏公司,它将推动下一个人工智能大爆炸”。
征程5上也有类似的向量加速单元,但不支持浮点计算。到了征程6上,地平线版的“CUDA核”正式落地。“我们第一次引用了浮点向量加速单元,使得可编程性包括对于算法的支持变得更好,而且使得用户可以在更细颗粒度上进行开发。”地平线创始人兼CTO黄畅在介绍纳什架构时表示。
与英伟达的CUDA语言类似,地平线也开始提供相应的编程范式。
一个是DSL(领域特定语言),可以将基础的BPU算子用轻代码的方式整合在一起,去设计一个全新的算子完成复杂任务,包括模型间的调度、前处理、后处理。
一个HPL,提供像Numba(一款可以将python函数编译为机器代码的JIT编译器)或者Triton(英伟达的一种深度学习/多线程推理模型部署用服务框架)一样底层的细粒度计算编程方式,用C语言或者Python的代码去描述开发者所想要实现的计算功能,从而提供CUDA级别的编程能力。
最终,通过“支持并行浮点算力”和“对关键算子以超越函数的方式进行加速”,征程6旗舰版能够将过去大量在CPU上运行的内容放在BPU上,加速计算过程的同时,减少了数据从BPU到CPU之间的搬运工作,大幅提升了整个计算效率。
“对于中高阶智驾来说,需要非常高效的支撑最先进的算法。” 尹凌冰表示:“芯片技术扎根得更深架构更强壮,有更好的通用性和灵活性,算法的口子张得越开,为行业提供真正有长久生命力的解决方案。”
05、低成本、快部署
征程6旗舰版不仅要解决计算问题,还要为城市NOA大规模上车,提供成本和速度的解决方案。
征程6将CPU、BPU、GPU、全功能的MCU,四芯合一架构降低了整个系统硬件架构的复杂程度,从而有效提升了性价比。
与此同时,配合征程6的Matrix6授权包,提供硬件参考方案设计、基础软件及功能安全组件、文档说明、应用示例、量产支持等,帮助车企和Tier1快速部署算法。
“大概一到两周,就可以从征程5到征程6的算法迁移。”地平线副总裁兼智能汽车事业部总裁张玉峰表示。
事实上,高阶智驾的成本除软硬件外,部署和系统适配也是非常重的一部分,而且往往无法带来用户能够感知的新特性、新功能。快速部署意味着企业能有更多的时间和成本,用于强感知,区别划的应用开发和体验打磨。
除计算平台和软件工具包外,地平线还开始对更多基础功能和模组进行打包,进一步提升车企使用地平线计算平台的易用性。
整合硬件的SiP模组,基于BGA的封装,包含DDR芯片/PMIC电源芯片组成的最小系统,满足车规AEC—Q104,这个既大大减少客户对于板级设计的复杂度,又能加速量产周期和量产时间,优化综合的系统成本。
基础智驾功能赋能包:包括AEB Flag在内的L2 ADAS前视感知SDK(软件开发工具包,如接口协议等),符合最新NCAP法规标准。“让大家能够更专注在中高阶应用开发上,安全这部分的保障可以让我们来承担” 尹凌冰表示。
按照计划,明年4月征程6系列将正式发布,并于第四季度完成首批量产车型交付,比亚迪、广汽集团、大众汽车集团旗下软件公司CARIAD、博世成为征程6的首批量产意向合作伙伴。
地平线的十年愿景是:通过软硬结合,使全系统的成本更加合理可控,每一辆车都可以搭载自动驾驶系统,覆盖99%以上道路场景,接管率小于10万公里/次,舒适度五星,且通行效率较人类驾驶提高10%。
如今征程6系列,为这一愿景提供了具象的落地方案。