作者 | 朱世耘,编辑 | 章涟漪
2022年年初,侯聪因为因核酸过期,与黄畅的“饭局”改在北五环外的一个公园内。边吃着薯条汉堡,两位清华同门聊了许多关于自动驾驶产业的话题,以及轻舟使用地平线征程5芯片(以下简称征程5)作为其自动驾驶系统核心计算平台的计划。
“我当时正处于从英伟达往地平线转换的过程中,其实确实会有一些路径依赖。黄畅师兄(地平线联合创始人、CTO)的几句话,让我放心地在地平线的平台上去开发。” 轻舟智航(以下简称轻舟)联合创始人、CTO侯聪向《赛博汽车》回忆道。
一年之后,轻舟于9月20日宣布已成功获得数家头部车企量产定点合作,成为首家基于地平线征程5实现BEV感知技术,达到行泊一体全栈交付量产要求的智驾方案供应商。
更重要的是,这套征程5+11V5R作为硬件系统,能够实现高速NOA,且具备城市NOA拓展能力的的高阶量产智驾方案的成本,用侯聪的话说是“极具性价比优势”,未来征程5+激光雷达的城市NOA方案成本也是如此。
这意味着,中国高阶智驾的量产硬件系统开始接近特斯拉HW3.0 7000元左右的标配成本区间。
像大众、通用、丰田在中国实现百万辆级规模,像特斯拉在华生产出口欧洲一样,国产软、硬件,中国公司间的软硬协同,国产化也成为低成本量产高阶智驾系统的底层推动力。
01、高维方案:量产BEV
“当我们在车道线识别等场景中比其它供应商表现更好、更稳定时,就有突破感。”侯聪说道:“那一刻我们就知道,我们是在做一个更先进的东西,它本身就是更容易解决这些问题,是正确的做法。”
“更先进的东西”是指BEV感知模型。
相比于前视图或透视图,BEV(鸟瞰图)表征能够让模型更好地识别遮挡,有利于规划、控制后续模块的开发和部署。轻舟的BEV方案采用多相机特征和时序融合的方式,生成速度和方向,实现道路语义识别、跨相机遮挡等非BEV方案模型所不具备的能力。
而且,轻舟将7个行车摄像头和5个泊车摄像头的数据全部输入同一个感知神经网络,实现软硬件完整整合的行泊一体方案,降低算力需求,提升产品体验。
BEV并不是新概念。自特斯拉2020年首次给出BEV在自动驾驶领域的最佳实践后,已是自动驾驶玩家人手一套的“流行技术”。
但反直觉的是,至今量产上车的BEV方案屈指可数。据《赛博汽车》粗略了解,此次轻舟的BEV方案,甚至可能是继特斯拉、小鹏、华为之外的第四家(准)量产方案。
究其原因,计算机视觉领域有众多的开源算法、工具和数据集,即使只是相关专业学生也可以搭建起一套能“跑起来“的BEV模型。
但“做出Demo,到把算法部署在车上做到量产水平,中间是天壤之别。”侯聪表示。
显而易见,量产模型需要具有足够高的精度和鲁棒性(系统健壮性),在各类及复杂场景下能够表现稳定。“总不能白天可以夜晚不行,晴天可以,下雨起雾不行。”
而量产模型的精度和鲁棒性,是由“数据闭环”支撑的。
BEV作为通用性更强的神经网络模型,具有“力大砖飞”的特性:模型的上限取决于算力和数据的加成效果。
而数据闭环是高质量训练数据的生产过程:在大量数据的基础之上,基于数据科学进行细分类,之后利用算法工具挖掘筛选,使数据分布能够覆盖目标场景的长尾问题,最终生成一个面向现实场景的训练集,保证交付方案的实现效果。
数据闭环还包括训练和部署。Demo往往是在“无限”算力支持下运行在有限的场境之内,量产模型需要适应“算力有限、场景无限”的现实世界。因此训练和部署,需要从下游业务需求出发,对上游资源进行工程化的细致打磨,抓大放小,找到性能、效率和成本之间的平衡点。
所以,将BEV模型量产上车的前提,是拥有一套完备的数据闭环体系。期间,技术、心力和时间缺一不可。
侯聪表示,轻舟作为L4级自动驾驶公司期间已经搭建起了仿真、标注等一整套数据体系,而面向量产则使轻舟对算法和数据的理解更进一步。
一方面,轻舟的模型设计之初便是以数据为中心;另一方面,为量产做准备的过程中,轻舟形成了一套基于实战的数据采集、分布、增强的工程方法。“让数据的使用效率不断提高是很关键的一件事。”
实践出真知。
作为自动驾驶算法公司,轻舟此前的发版(更新自动驾驶系统版本)效率为一月一版,也是目前行业的平均水平。但随着量产节奏发布,目前轻舟的发版效率已提高到两周一版,小模型则为一周一版。解决问题的时间从行业通常的一周缩短为三天。
02、降本需求,国产替代不容易
但再好的BEV模型架构和数据闭环,要“上车”,都需要问问够不够钱“买票”。
同为自动驾驶T1供应商的张先生向《赛博汽车》直言:“BEV需要的算力大,现在只能用Orin,光芯片4000块,整车不就得30万元以上了。”
关于英伟达Orin-X芯片的价格,业内从300美元-500美元的说法不一,但“贵”是共识。“硬件和配套成本,Orin大概是征程5的1.5-1.8倍。”一家正在论证从英伟达向地平线平台切换的车企表示。
成本考量,是轻舟从之前的英伟达Orin-X向地平线征程5切换的底层原因。
高阶智能驾驶需要由上限更高的神经网络算法模型实现。神经网络模型越大,对算力越高;目前业内经过量产验证的百TOPS大算力芯片只有英伟达Orin-X和地平线征程5。当车企想要在更主流价位车型上落地NOA等高阶智驾能力时,用征程5替代Orin-X看似是必然之选。
问题是,如何替代?
英伟达是深度学习的引领者。例如在Transformer“火”起来之前,Orin所应用的Ampere架构便为其针对性地设计了加速支持。
如今,全球绝大多数的神经网络都使用英伟达DGX服务器进行训练,大量的算法工程师学习的起点便是英伟达CUDA架构。
PyTorch、Tensorflow等核心深度学习框架都属于CUDA生态,使开发者能够灵活使用CUDA语言去定制化一些GPU算子。
简而言之,英伟达平台先天对神经网络友好,且生态丰富健全,工程师上手难度低。
当然英伟达也并非完美产品。除了贵之外,基于数据中心通用架构打造的端侧芯片,在效能表现上相对较弱,对算力和功耗需求更多。这不仅导致单位算力成本更高,也会对适配车型造成障碍。
例如燃油车上缺乏液冷系统,就难以布置无法被动散热的英伟达平台。
征程5作为针对自动驾驶端侧场景需求设计的专用芯片,在成本优势外,对一些神经网络的效能更高,功耗需求更低。
但在算力和架构与英伟达的差距外,应用地平线的核心挑战是“太新”。相比数码爱好者都能谈上一二的英伟达GPU,地平线的BPU对算法工程师来说更加陌生,生态也仍在建设当中。
所以,虽然地平线硬件成本较低,但部署过程可能隐含高成本。这也是讨论合作之初,侯聪所担心的问题。
03、软硬协同:轻舟+地平线>轻舟和地平线
从结果来看,轻舟只用了两个月的时间便完成了在地平线平台上的算法部署:SR上能够稳定复现周围环境信息,BEV感知帧率达到与特斯拉一样的30FPS,行业平均水平则为12.5-20FPS((每秒传输帧率)。
黄畅师兄果然说到做到。
“轻舟是我们生态中第一家完全自研BEV自动驾驶方案,并在两个月内高速部署的企业。”地平线芯片算法工具链产品经理秦畅告诉《赛博汽车》,在行业内,基于J5打造自研算法方案,通常3至4个月完成是比较常见的节奏。
速度,来自于轻舟与地平线的软硬协同。
特斯拉是英伟达在自动驾驶芯片领域的第一个挑战者。自研算法与自研芯片之间高度的软硬协同,使HW3.0用两块共计140TOPS的FSD芯片,跑赢了258TOPS的Orin-X。
但并非每个企业都有特斯拉的禀赋和时机,来自不同公司的软硬件如何软硬协同?“极致的开放合作”,是轻舟和地平线给出了一样的答案,但实现“开放合作”却绝非易事。
首先,T1、T2之间明确的责权体系流程需要被打破。
“职责上,作为T1的轻舟负责拆解主机厂需求,我们作为T2来做支持。但要将整个系统指标做到最好,就需要大家在组织文化、质量流程等多方面一起去探索创新,解决问题。”地平线副总裁、智能汽车事业部业务拓展负责人张宏志举例道:
轻舟的BEV方案中,需要将所有摄像头数据都接入征程5的ISP(图像信号处理器),期间地平线对工具、经验等进行能力输出,最后图像质量的把关、验证和确认是轻舟的责任。
即地平线干活儿,轻舟验收。
但这当中涉及几百项细节的调整确认,以及软硬件不同的能力禀赋。最终,双方并未采用发包-交付这样传统的上下游链条模式工作,而是组建联合团队来解决整个链条上的所有细节问题。
“合作至今,光是有会议纪要,有迹可循的多方会议就有上百场。”张宏志表示,“软硬结合要做的比较好,就看双方的信任度、开放度和技术研讨的深度。”
事实上,信任和开放的程度往往最终决定着技术研讨的深度。
秦畅讲了这样一个例子:轻舟算法中有一些与征程5匹配度不高的计算结构,即使付出大量的人力和时间对算子进行优化,也只能达到行业平均水平。
地平线具备深厚算法基因的研发团队,建议调整算法使其更符合BPU特性,实现超100分的效果。但作为算法公司的轻舟会接受来自硬件公司的建议吗?
“算法公司都非常注重算法的保真度,所以预想会有很大阻力。”在一线沟通客户的秦畅说:“但结果轻舟非常乐于接受这个建议:‘哎,我如果这样改的话,还能超过原来的效果’。”
这样的信任和开放程度,为软硬件公司在技术协同上提供了更宽的通路。
在雷达点云的处理上,轻舟此前在GPU上使用CUDA来做,但地平线用的是DSP(数字信号处理器),轻舟则缺少DSP的开发经验。
通常,行业内会通过多次讲解会来解释使用方法,来弥补知识鸿沟。但在量产的“死线”前,越快完成知识复制,越为后期调优争取时间。
几次workshop之后,轻舟与地平线决定采用更为直接高效的方式:由地平线提供一个最佳实践作为参考,轻舟再基于此快速了解DSP与BPU的协同实现。基于这个用例,轻舟迅速将之前GPU的经验移植到J5上优化后,形成了自己的方案,也掌握了J5上DSP处理雷达的方法。
这种开放并不仅限于供应商之间。
“客户(主机厂)提的指标还是比较粗,只靠那些指标是不够的。”侯聪表示,作为供应商,在商量过程中轻舟不断与主机厂详细分享其内部的标定指标,以及指标的改进迭代过程。随着交流深入,客户也给到更多的整车级系统技术反馈。“这对于建立客户对我们的信任和认可是很重要的一点。”
04、工程化解题 :好奇心与紧迫感
2020年5月,Space X将宇航员送入太空站后,又在5个月内成功发射了11颗卫星。饶是如此,当年10月的一次发射后,马斯克深夜造访39A发射台,看到只有两个人在场工作后,质问负责人:“我们在这里有783名员工,为什么现在我只看到两个人在工作?“
“马斯克担心除非他能保持狂热的紧迫感,否则SpaceX会像波音公司一样,最终变成一家缺乏后劲,行动迟缓的公司。”《马斯克传》中这样写道。
这样的工作态度和紧迫感,中国的创新公司和工程师们可能最能共情。
轻舟联合创始人、CTO侯聪在量产准备现场轻舟为量产定点做准备的工作节奏是每天早上9点钟开始调试和测试到深夜11、12点,再拉会复盘一天的工作,直至凌晨3、4点,去进行版本的迭代。感知技术研发负责人在大版本更新、极端场景测试时,都会自己上车实测,对车辆维修的细节问题甚至比测试工程师更了解。研发人员用周末“叼空”结婚的例子也是不胜枚举。
“只要不睡觉,就是我们的工作时间。”这是张宏志回忆2022年地平线和轻舟团队沟通十一工作安排时得到的回复:“但这不是单纯耗时间的‘卷’。对于工程师来说,把一个新的技术体系搭建出来,来满足新需求的过程本身非常激动人心。我们都很好奇,如何用新的方法来解决新领域的问题。”
事实上,主机厂与供应商,软硬件公司之间肩并肩、背靠背的高强度工作模式,是目前中国量产智驾行业的普遍状态。因为高阶智驾作为复杂系统受众多的子系统、子单元影响,牵一发而动全身,导致调顺调优的工程化难度指数级上升。
“工程化在整个系统中的占比是非常大的,但行业中对工程化的重视程度并不太够。”张宏志表示,地平线在百万片芯片上车的过程中,对工程化的重要性深有体会。
侯聪认为,正是这样千头万绪的工程量产过程,使轻舟团队从高大上的自动驾驶开发快速转变贴近客户投身一线落地量产的高阶驾驶辅助团队。
“全栈自研的核心技术、扎实的工程交付能力和客户服务意识,轻舟才能为客户提供适合中国道路、具备规模化量产交付和成本效益的一系列高阶辅助驾驶解决方案。”
德国慕尼黑车展期间,轻舟的产品矩阵完整亮相,从 Air、Pro 到 Max, 依次对应基于单征程 5、具备高速 NOA+L2 全功能的 7V1R 高速 NOA 方案;基于单征程 5、可拓展城市 NOA 功能的 11V5R 高速 NOA 方案;基于双征程 5、采用单激光雷 达+11V5R 的城市 NOA 方案。