毫末的自动驾驶路径越来越清晰,核心技术点可以概括为三个词:大算力、大模型、大数据。
作者 | 肖莹
1月5日,第七届 HAOMO AI DAY在北京举办,毫末分享了对自动驾驶技术迭代的思考和实践。
每个季度做一个总结分享,个人感受而言,毫末团队是学习能力很强且最有意愿分享的自动驾驶公司之一。就像特斯拉AI DAY,HAOMO AI DAY也成为了一个了解自动驾驶技术进展的窗口。
这次HAOMO AI DAY上,毫末智行宣布智算中心正式成立,命名为“雪湖·绿洲”(MANA OASIS)。以此为支撑,毫末还发布了MANA五大模型,包括视觉自监督大模型、多模态互监督大模型、3D重建大模型、动态环境大模型,以及人驾自监督认知大模型。
经过不断地迭代、进化,毫末的自动驾驶路径也更加清晰,核心技术点可以概括为三个词:大算力、大模型、大数据。
01、抢先投入大算力基建 智算中心“绿洲”发布
算力比拼已经不局限于车端,开始进入到了云端,即智算中心的搭建。
毫末智行在国内自动驾驶玩家中,最早意识到了这一问题,并抢先着手搭建智算中心。
在这次AI DAY上,毫末宣布了智算中心的命名——“雪湖·绿洲”(MANA OASIS)。
由毫末智行与字节跳动旗下云服务平台火山引擎联合打造,每秒浮点运算达67 亿亿次,存储带宽每秒2T,通信带宽每秒800G。
小鹏汽车在2022年8月发布的智算中心扶摇算力为600PFLOPS,即每秒浮点运算60亿亿次。当时,小鹏称之为算力最强的自动驾驶智算中心。
对比算力来看,MANA OASIS已经超越扶摇,成为国内自动驾驶行业最大的智算中心。
自动驾驶发展进入关键阶段,数据获取效率、处理效率是算法进化的关键,海量的产品数据、超大规模的数据训练、大模型的应用等,都对算力提出了更庞大的需求。
值得一提是的,MANA OASIS是毫末建设的私有云。
就采用公有云还是搭建私有云的话题,我们曾咨询过多家自动驾驶公司,目前多数玩家还是以公有云为主,大家普遍认为,是否自建的核心在于性价比考量。而随着数据存储、处理量越来越大,公有云就越来越不具备成本优势。毫末建设私有云,一方面是私有云针对性更强,另一方面也是基于性价比的考虑。
同时,据毫末介绍,在数据管理能力方面,为充分发挥智算中心价值,让GPU 持续饱和运行,毫末历经两年研发,建立了全套面向大规模训练的Data Engine,实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒。
500微秒意味着什么?毫末解释称,对于数据处理来说,大家一般考虑的是算得有多快。但随着技术的发展,数据处理真正的瓶颈已经不卡在GPU上,并不是显卡本身算得不够快,而是卡在通信上。
只有达到500微秒这样水平的文件读取速度,才能支撑起来能把几十万、几百万的clips放在一起训练。如果做不到这样水平,整个训练速度就会由于文件读取的原因卡住,这就意味着,有相当于大量的GPU在闲置,等待文件系统把数据读上来,才能开始计算。
在算力优化方面,毫末与火山引擎合作,部署了Lego高性能算子库、ByteCCL 通信优化能力、以及大模型训练框架。
在训练效率方面,基于Sparse MoE,通过跨机共享,可完成万亿参数大模型训练,且百万个clips训练成本只需百卡周级别,训练效率提升100倍。
毫末预计,进入2023年,超算中心会成为自动驾驶企业的入门配置,预计会有更多的企业开始投入建设,毫末属于率先摸索的企业。
02、打造五大算法模型,感知模型跨代升级
在介绍毫末打造的五大大模型之前,我们先来解释一下如何理解“大模型”?
大模型也可以称之为基石模型(fundation model),属于深度学习的一种,在AI领域具备里程碑式的影响。
在《2022达摩院十大科技趋势》中,达摩院将其称作“从弱人工智能通向人工智能突破性的探索”。
大模型的主要特征包括三个方面:参数规模大、数据规模大、算力需求大。基于这样的特点,大模型在自动驾驶领域的应用有一定优势。
自动驾驶采集的数据种类繁杂,包括不同传感器采集的数据、实际路测数据、仿真数据等等,小模型因为模型容量太小,无法灌入足够多数据,难以沉淀出有价值的信息,大模型则在模型容量上有保障,能够通过大量数据灌入,学习到关键信息。
交代完这一背景,我们来重点介绍一下毫末MANA五大模型:
1、视觉自监督大模型。这一大模型核心价值是让毫末4D clip标注实现100%自动化,同时将标注成本降低98%。
为了更低成本、更高效获取更多高价值数据,需要解决从离散帧自动化扩充到clips形态的问题。
毫末首先利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力。
然后,将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。
2、3D重建大模型。核心价值在于数据生成、仿真场景的搭建,以获得海量corner case(长尾场景)。
面对“完全从真实数据中积累的corner case困难且昂贵”的行业难题,毫末将爆火的三维重建NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。
根据毫末介绍,3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低,增加NeRF生成的数据后,还可将感知的错误率降低30%以上。
3、多模态互监督大模型,主要是为了更加精准识别异形障碍物。
在实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。
多模态互监督大模型引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。
4、动态环境大模型,进一步降低对高精地图的依赖。
通过这一模型可以预测道路的拓扑关系,让车辆行驶在正确的车道中。
在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。为此,毫末在BEV(鸟瞰图)的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测,让感知能力能像人类一样,在标准地图的导航提示下就可以实现对道路拓扑结构的实时推断。
毫末认为,解决了路口问题实际就解决了大部分城市NOH问题,目前在保定、北京,毫末对于 85%的路口拓扑推断准确率高达 95%。但毫末也坦言,这一模型距离大规模应用还有一定距离。
5、人驾自监督认知大模型,可以让驾驶策略更加拟人化。
在探索“使用大量人驾数据,直接训练模型做出拟人化决策”方面,毫末为了让模型能够学习到高水平司机的优秀开车方法,全新引入了用户真实的接管数据,同时用RLHF(从人类反馈中强化学习)思路先训练一个reward model(奖励模型)来挑选出更好的驾驶决策。
通过这种方式,使毫末在掉头、环岛等公认的困难场景中,通过率提升30%以上。这与AGI领域爆火的ChatGPT 的思路相同,通过人类行为反馈来选出最优答案。
在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,让毫末车端感知架构实现了跨代升级。
03、HPilot搭载近20款产品,自动驾驶进入3.0时代
在技术落地层面,毫末也复盘了2022年进展,以及后续的规划。
自发布以来,毫末HPilot智能驾驶系统已经经过了6次OTA升级,迭代到3.0版本。三代HPilot产品搭载至魏牌、坦克、欧拉、长城炮等近20款车型,辅助驾驶用户行驶里程突破2500万公里。
HPilot 3.0也将要正式量产交付,毫末的城市NOH软件封版,并达到交付状态,具备打通高速、城市场景高级别的辅助驾驶能力,首款搭载城市NOH的车型将在2023年上市。
通过重感知、轻地图技术,毫末城市NOH定位是可大规模量产的城市导航辅助驾驶。
预计到2024年上半年,毫末将完成HPilot落地中国100个城市的计划,实现点点互达。到2025年,更大规模全场景的NOH将更快落地,并迈入全无人驾驶时代。
第六届毫末AI DAY上,毫末首次提出自动驾驶3.0时代的概念,这是对于自动驾驶技术发展阶段的一个判断。
毫末认为自动驾驶发展会经历三个阶段。硬件驱动的1.0时代,最典型的特征是,感知能力主要靠激光雷达,认知方式依赖人工规则,整车成本高企,自动驾驶里程数据在100万公里左右。
软件驱动的2.0时代,AI在车上广泛应用,但还是小模型和小数据训练的方式,传感器的识别结果开始融合,但还是基于结果的后融合方式,认知方式依然以人工规则为主,自动驾驶里程数据在100万到1亿公里之间。
数据驱动的3.0时代,数据可以自己训练自己,自动驾驶玩家的侧重点,转移到高效获取数据,并把数据转化为知识上。
从全球来看,以数据驱动为标志,特斯拉领跑全球率先进入自动驾驶3.0时代。在中国,以毫末智行等渐进式自动驾驶企业为代表,正在通过规模量产和高阶辅助驾驶场景落地实现数据闭环,推动自动驾驶技术快速走向成熟。
在此次AI DAY上,毫末作出判断,2023年自动驾驶将全面进入3.0时代。
同时,毫末还做出判断,进入2023年,智能驾驶的用户体验将从尝鲜转变为用户依赖。随着搭载高速导航辅助驾驶系统的智能汽车大量进入市场,智能驾驶系统能力不断提升,用户使用时长和粘性也在不断增加,智能驾驶系统的核心价值将会逐步从体验尝鲜转变为功能依赖。