加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01、抢先投入大算力基建 智算中心“绿洲”发布
    • 02、打造五大算法模型,感知模型跨代升级
    • 03、HPilot搭载近20款产品,自动驾驶进入3.0时代
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

自建智算中心“绿洲”、打造五大算法模型,解读毫末自动驾驶最新进展

2023/01/06
512
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

毫末的自动驾驶路径越来越清晰,核心技术点可以概括为三个词:大算力大模型大数据

作者 | 肖莹

1月5日,第七届 HAOMO AI DAY在北京举办,毫末分享了对自动驾驶技术迭代的思考和实践。

每个季度做一个总结分享,个人感受而言,毫末团队是学习能力很强且最有意愿分享的自动驾驶公司之一。就像特斯拉AI DAY,HAOMO AI DAY也成为了一个了解自动驾驶技术进展的窗口。

这次HAOMO AI DAY上,毫末智行宣布智算中心正式成立,命名为“雪湖·绿洲”(MANA OASIS)。以此为支撑,毫末还发布了MANA五大模型,包括视觉自监督大模型、多模态互监督大模型、3D重建大模型、动态环境大模型,以及人驾自监督认知大模型

经过不断地迭代、进化,毫末的自动驾驶路径也更加清晰,核心技术点可以概括为三个词:大算力、大模型、大数据

01、抢先投入大算力基建 智算中心“绿洲”发布

算力比拼已经不局限于车端,开始进入到了云端,即智算中心的搭建。

毫末智行在国内自动驾驶玩家中,最早意识到了这一问题,并抢先着手搭建智算中心。

在这次AI DAY上,毫末宣布了智算中心的命名——“雪湖·绿洲”(MANA OASIS)。

由毫末智行与字节跳动旗下云服务平台火山引擎联合打造,每秒浮点运算达67 亿亿次,存储带宽每秒2T,通信带宽每秒800G

小鹏汽车在2022年8月发布的智算中心扶摇算力为600PFLOPS,即每秒浮点运算60亿亿次。当时,小鹏称之为算力最强的自动驾驶智算中心。

对比算力来看,MANA OASIS已经超越扶摇,成为国内自动驾驶行业最大的智算中心。

自动驾驶发展进入关键阶段,数据获取效率、处理效率是算法进化的关键,海量的产品数据、超大规模的数据训练、大模型的应用等,都对算力提出了更庞大的需求。

值得一提是的,MANA OASIS是毫末建设的私有云。

就采用公有云还是搭建私有云的话题,我们曾咨询过多家自动驾驶公司,目前多数玩家还是以公有云为主,大家普遍认为,是否自建的核心在于性价比考量。而随着数据存储、处理量越来越大,公有云就越来越不具备成本优势。毫末建设私有云,一方面是私有云针对性更强,另一方面也是基于性价比的考虑。

同时,据毫末介绍,在数据管理能力方面,为充分发挥智算中心价值,让GPU 持续饱和运行,毫末历经两年研发,建立了全套面向大规模训练的Data Engine,实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒

500微秒意味着什么?毫末解释称,对于数据处理来说,大家一般考虑的是算得有多快。但随着技术的发展,数据处理真正的瓶颈已经不卡在GPU上,并不是显卡本身算得不够快,而是卡在通信上。

只有达到500微秒这样水平的文件读取速度,才能支撑起来能把几十万、几百万的clips放在一起训练。如果做不到这样水平,整个训练速度就会由于文件读取的原因卡住,这就意味着,有相当于大量的GPU在闲置,等待文件系统把数据读上来,才能开始计算。

在算力优化方面,毫末与火山引擎合作,部署了Lego高性能算子库、ByteCCL 通信优化能力、以及大模型训练框架。

在训练效率方面,基于Sparse MoE,通过跨机共享,可完成万亿参数大模型训练,且百万个clips训练成本只需百卡周级别,训练效率提升100倍。

毫末预计,进入2023年,超算中心会成为自动驾驶企业的入门配置,预计会有更多的企业开始投入建设,毫末属于率先摸索的企业。

02、打造五大算法模型,感知模型跨代升级

在介绍毫末打造的五大大模型之前,我们先来解释一下如何理解“大模型”?

大模型也可以称之为基石模型(fundation model),属于深度学习的一种,在AI领域具备里程碑式的影响

在《2022达摩院十大科技趋势》中,达摩院将其称作“从弱人工智能通向人工智能突破性的探索”。

大模型的主要特征包括三个方面:参数规模大、数据规模大、算力需求大。基于这样的特点,大模型在自动驾驶领域的应用有一定优势。

自动驾驶采集的数据种类繁杂,包括不同传感器采集的数据、实际路测数据、仿真数据等等,小模型因为模型容量太小,无法灌入足够多数据,难以沉淀出有价值的信息,大模型则在模型容量上有保障,能够通过大量数据灌入,学习到关键信息

交代完这一背景,我们来重点介绍一下毫末MANA五大模型:

1、视觉自监督大模型。这一大模型核心价值是让毫末4D clip标注实现100%自动化,同时将标注成本降低98%

为了更低成本、更高效获取更多高价值数据,需要解决从离散帧自动化扩充到clips形态的问题。

毫末首先利用海量videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的clip数据进行Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力。

然后,将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip,其中10%是标注帧,90%是未标注帧,再将这些clip输入到模型,完成对90%未标注帧的自动标注,进而实现所有单帧标注向clip标注的100%的自动转化,同时降低98%的clip标注成本。

2、3D重建大模型。核心价值在于数据生成、仿真场景的搭建,以获得海量corner case(长尾场景)

面对“完全从真实数据中积累的corner case困难且昂贵”的行业难题,毫末将爆火的三维重建NeRF技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取normal case,生成各种高成本corner case。

根据毫末介绍,3D重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低,增加NeRF生成的数据后,还可将感知的错误率降低30%以上。

3、多模态互监督大模型,主要是为了更加精准识别异形障碍物。

在实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。

多模态互监督大模型引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。

4、动态环境大模型,进一步降低对高精地图的依赖。

通过这一模型可以预测道路的拓扑关系,让车辆行驶在正确的车道中。

在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。为此,毫末在BEV(鸟瞰图)的feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将BEV特征,解码为结构化的拓扑点序列,实现车道拓扑预测,让感知能力能像人类一样,在标准地图的导航提示下就可以实现对道路拓扑结构的实时推断。

毫末认为,解决了路口问题实际就解决了大部分城市NOH问题,目前在保定、北京,毫末对于 85%的路口拓扑推断准确率高达 95%。但毫末也坦言,这一模型距离大规模应用还有一定距离。

5、人驾自监督认知大模型,可以让驾驶策略更加拟人化。

在探索“使用大量人驾数据,直接训练模型做出拟人化决策”方面,毫末为了让模型能够学习到高水平司机的优秀开车方法,全新引入了用户真实的接管数据,同时用RLHF(从人类反馈中强化学习)思路先训练一个reward model(奖励模型)来挑选出更好的驾驶决策。

通过这种方式,使毫末在掉头、环岛等公认的困难场景中,通过率提升30%以上。这与AGI领域爆火的ChatGPT 的思路相同,通过人类行为反馈来选出最优答案。

在五大模型助力下,MANA最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,让毫末车端感知架构实现了跨代升级

03、HPilot搭载近20款产品,自动驾驶进入3.0时代

在技术落地层面,毫末也复盘了2022年进展,以及后续的规划。

自发布以来,毫末HPilot智能驾驶系统已经经过了6次OTA升级,迭代到3.0版本。三代HPilot产品搭载至魏牌、坦克、欧拉、长城炮等近20款车型,辅助驾驶用户行驶里程突破2500万公里。

HPilot 3.0也将要正式量产交付,毫末的城市NOH软件封版,并达到交付状态,具备打通高速、城市场景高级别的辅助驾驶能力,首款搭载城市NOH的车型将在2023年上市。

通过重感知、轻地图技术,毫末城市NOH定位是可大规模量产的城市导航辅助驾驶

预计到2024年上半年,毫末将完成HPilot落地中国100个城市的计划,实现点点互达。到2025年,更大规模全场景的NOH将更快落地,并迈入全无人驾驶时代。

第六届毫末AI DAY上,毫末首次提出自动驾驶3.0时代的概念,这是对于自动驾驶技术发展阶段的一个判断。

毫末认为自动驾驶发展会经历三个阶段。硬件驱动的1.0时代,最典型的特征是,感知能力主要靠激光雷达,认知方式依赖人工规则,整车成本高企,自动驾驶里程数据在100万公里左右。

软件驱动的2.0时代,AI在车上广泛应用,但还是小模型和小数据训练的方式,传感器的识别结果开始融合,但还是基于结果的后融合方式,认知方式依然以人工规则为主,自动驾驶里程数据在100万到1亿公里之间。

数据驱动的3.0时代,数据可以自己训练自己,自动驾驶玩家的侧重点,转移到高效获取数据,并把数据转化为知识上。

从全球来看,以数据驱动为标志,特斯拉领跑全球率先进入自动驾驶3.0时代。在中国,以毫末智行等渐进式自动驾驶企业为代表,正在通过规模量产和高阶辅助驾驶场景落地实现数据闭环,推动自动驾驶技术快速走向成熟。

在此次AI DAY上,毫末作出判断,2023年自动驾驶将全面进入3.0时代。

同时,毫末还做出判断,进入2023年,智能驾驶的用户体验将从尝鲜转变为用户依赖。随着搭载高速导航辅助驾驶系统的智能汽车大量进入市场,智能驾驶系统能力不断提升,用户使用时长和粘性也在不断增加,智能驾驶系统的核心价值将会逐步从体验尝鲜转变为功能依赖。

毫末智行

毫末智行

毫末智行是一家致力于自动驾驶的人工智能技术公司,以零事故、零拥堵、自由出行和高效物流为目标,助力合作伙伴重塑和全面升级整个社会的出行及物流方式。

毫末智行是一家致力于自动驾驶的人工智能技术公司,以零事故、零拥堵、自由出行和高效物流为目标,助力合作伙伴重塑和全面升级整个社会的出行及物流方式。收起

查看更多

相关推荐

电子产业图谱

聚焦智能汽车和自动驾驶,关注汽车技术进步和商业文明冲突,志与汽车产业一同成长。公众号:赛博汽车