作者 | 朱世耘,编辑 | 章涟漪
“我们内部一直有争议:是有一点就拿出来一点,还是做到爆款的水平之后再拿出来。因为重感知、轻地图的方案是更难的。” 毫末智行董事长张凯表示。
如今,毫末终于亮出了自己的“爆款”产品,并将于今明两年先后上车。
10月11日,毫末AI DAY上发布了三款第二代HPilot高阶智驾预控产品:HP170、HP370、HP570价格分别在3000、5000和8000元,可实现高速无图NOH、城市记忆行车+记忆泊车,城市全场景无图NOH等功能。相比之下,如今已量产的同功能预控产品成本大多在5000-10000元,城市领航则在3万元左右。
毫末此举,意味着可适配车型价格从25-30万元级及以上,下探到了20万元以下,甚至更低。“价格打下来,性能打上去。让中阶智驾便宜更好用,让高阶智驾好用更便宜。”张凯表示。
01、物尽其用,把L2+的价格打下来
“第二代平台主打性价比,对芯片和硬件的优化压榨,都做到了极致。”张凯向《赛博汽车》表示。
智驾市场的风向正在发生根本性的改变。
2020年时,以Mobileye为核心的ADAS供应商L2级系统价格为250美元(约1700元,汇率按6.8计算)以上;L2+级为2380元;L2++级为2.04-2.72万元。
但如今,中国车规级ADAS系统的供应体系正变得“品类丰富、丰俭由人”。在《电动汽车观察家》2022年年底的调查中,已有定点的高速NOA+记忆泊车产品价格在3000-5000元不等,城市NOA等点到点的智驾域控系统价格在5000元以上。
单从价格来看,毫末第二代HPilot基本与行业定点情况持平。但从上车落地的实际情况来看,HP170、370和570确实将”物尽其用“推向了新的高度。
赛博汽车制图
同样是基于地平线征程3的产品,第三代荣威RX5(2022年6月上市)基于3颗征程3和26个传感器(不含两个驾驶员监测传感器),实现高速领航和全场景泊车功能;
今年3月问世的深蓝SL03应用双征程3+27颗传感器(含1个前视800万像素摄像头、1颗4D毫米波雷达)的高配智驾方案,能够实现高速领航功能。标配的单征程3方案,则仅支持L2级辅助驾驶功能;
将于2024年年初上车的毫末HP170基于单征程3+20个传感器实现高速领航和泊车功能。
在中阶方案上,德州仪器的TDA4-H还属于新产品,目前大疆在五菱云朵上车的方案采用32TOPS+19颗传感器(含1个惯导双⽬摄像头),实现高速领航和记忆泊车等功能,将高阶智驾功能的上车价打到了15万元以下。
将于2024年内上车的毫末HP370在传感器配置上更加丰富一些,32Tops+24颗传感器,将功能从高速拓展到了城市中的记忆行车。
高阶方案上,高通5nm制程的8255/8295作为智驾芯片上车的方案仍非常新,也非常少。奔驰刚发布的新一代E级车采用8295实现高速领航;零跑的方案中,8295+恩智浦S32G高配芯片实现L2+级智能驾驶辅助能力,将于2024年上车。
毫末HP570的方案则将功能上限从高速彻底拓展到了城市路况。对于高通的方案,张凯告诉《赛博汽车》,算力为360Tops的HP550方案将于首先搭载于魏牌蓝山DHT-PHEV车型上,于明年一季度正式量产。HP570车型采用QC8650,算力72/100Tops将在蓝山之后的改款车型上上车应用。
至少从纸面对比来看,计划于2024年先后落地的毫末第二代HPilot产品,将更低硬件需求、更高性能上限的智驾性价比竞争激烈度进一步推高。
其中当然有后发优势。张凯表示,近几年快速的技术迭代和模型轻量化特征,使之前需要在大算力平台上布置的算法得以在中平台上布置。而大算力芯片的单位算力价格也在下行。
此外,毫末自身的工程化能力也是其拉低价格的重要原因。
三款产品,三个计算平台,意味着大量的模型迁移和适配工作,也使很多团队望而却步。但毫末在HP1.0平台的上车应用过程中,积累了大量的工程化能力,使其能否完成这样困难的工作。
《赛博汽车》了解到,今年上半年,除特斯拉的代工厂外,德赛西威、知行科技和毫末智行是量产量前三的智驾域控商。
”我们还是要做平台的系列化,把系列化做好,以满足高中低不同价位车型的需求。“张凯表示。
02、识别万物,云端能力提上来
终端价格打下去的另一面,是云端的能力进一步提升,以更加简洁、高效的算法模型为终端降本服务。如特斯拉FSD V12版通过采用完全的神经网络,端侧系统减少了30万行代码,运行速度快了10倍。
目前国内尚未有明确的自动驾驶端到端的模型范式,但此次AI DAY上,毫末向业内展示了自动驾驶生成式大模型DriveGPT雪湖·海若在云端实现端到端运行的方式。
毫末发布的行业首个自动驾驶生成式大模型DriveGPT在云端分为感知和认知两个大模型。
其中,感知大模型通过感知数据输入,建立包含时序信息的4D向量空间后,引入开源的图文多模态大模型,从而形成含有视觉图像中语义信息的“5D”空间。
从而,将"前方有一个离地两米,一米多长,静止不动的障碍物",翻译为“绿色的柳条”,使自动驾驶系统的识别能力从障碍物提升到万物。
在认知大模型中,基于5D的感知结果,DriveGPT通过构建驾驶语言(Drive Language)来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型LLM的海量知识来辅助给出驾驶决策。
例如将”绿色的柳条“这一文本解释为”柔软“,从而成为车辆可忽略该障碍物,正常通行的决策依据。
值得注意的是,虽然仍分为感知和认知模块,并且存在引入外部开源的多模态和大语言模型,而非一个完整的神经网络系统。但从数据的层面来看,由于引入外部大模型,从输入到最后输出决策策略的过程中,不再存在数据量消减的问题。
由此,模型获得世界知识,从而提升自动驾驶策略的可解释性和泛化性。
毫末智行数据智能科学家贺翔向《赛博汽车》表示:多模态和大语言模型将此前不宜存储传输的图片信息,提炼为文本信息组成隐式场,供感知和决策模型希望进一步完善信息时调用查阅,由此保证了数据从输出到输出端的完整性。
截止2023年10月DriveGPT雪湖·海若共计筛选出超过100亿帧互联网图片数据集和480万段包含人驾行为的自动驾驶4D Clips数据。
目前,DriveGPT还是在云上的大模型,但已在数据生产和端侧模型训练上发挥作用。
毫末智行CEO顾维灏在演讲中表示,DriveGPT的驾驶场景理解可以对海量驾驶场景数据进行秒级特征搜索,从而实现更高效的数据筛选,为大模型挖掘海量高质量训练数据;驾驶场景标注是采用了开集(Open-set)场景下的Zero-Shot自动标注,可实现对任意物体既快速又精准的标注,预标注准召达到80%以上。
此外,驾驶场景生成,可以基于驾驶场景的文生图模型,通过文字描述批量生成平时难以获取的Hardcase数据,实现无中生有的可控生成;对于驾驶场景迁移,基于AIGC生成能力,可实现多目标场景生成,能将采集到的一个场景,迁移到该场景的不同时间、不同天气、不同光照等各类新场景下,可同时获取全天候驾驶数据,实现瞬息万变的高效场景迁移。
车端模型开发模式变革方面,毫末正在尝试用蒸馏的方法,也就是用大模型输出的伪标签作为监督信号,让车端小模型来学习云端大模型的预测结果,或者通过对齐Feature Map的方式,让车端小模型直接学习并对齐云端的Feature Map,从而提升车端小模型的能力。基于蒸馏的方式,可以让车端的感知效果提升五个百分点。
顾维灏认为,未来的自动驾驶系统一定是跟人类驾驶员一样,不但具备对三维空间的精确感知测量能力,而且能够像人类一样理解万物之间的联系、事件发生的逻辑和背后的常识,并且能基于这些人类社会的经验来做出更好的驾驶策略,真正实现完全无人驾驶。