自建智算中心“绿洲”、打造五大算法模型，解读毫末自动驾驶最新进展

毫末的自动驾驶路径越来越清晰，核心技术点可以概括为三个词：大算力、大模型、大数据。

作者 | 肖莹

1月5日，第七届 HAOMO AI DAY在北京举办，毫末分享了对自动驾驶技术迭代的思考和实践。

每个季度做一个总结分享，个人感受而言，毫末团队是学习能力很强且最有意愿分享的自动驾驶公司之一。就像特斯拉AI DAY，HAOMO AI DAY也成为了一个了解自动驾驶技术进展的窗口。

这次HAOMO AI DAY上，毫末智行宣布智算中心正式成立，命名为“雪湖·绿洲”（MANA OASIS）。以此为支撑，毫末还发布了MANA五大模型，包括视觉自监督大模型、多模态互监督大模型、3D重建大模型、动态环境大模型，以及人驾自监督认知大模型。

经过不断地迭代、进化，毫末的自动驾驶路径也更加清晰，核心技术点可以概括为三个词：大算力、大模型、大数据。

01、抢先投入大算力基建智算中心“绿洲”发布

算力比拼已经不局限于车端，开始进入到了云端，即智算中心的搭建。

毫末智行在国内自动驾驶玩家中，最早意识到了这一问题，并抢先着手搭建智算中心。

在这次AI DAY上，毫末宣布了智算中心的命名——“雪湖·绿洲”（MANA OASIS）。

由毫末智行与字节跳动旗下云服务平台火山引擎联合打造，每秒浮点运算达67 亿亿次，存储带宽每秒2T，通信带宽每秒800G。

小鹏汽车在2022年8月发布的智算中心扶摇算力为600PFLOPS，即每秒浮点运算60亿亿次。当时，小鹏称之为算力最强的自动驾驶智算中心。

对比算力来看，MANA OASIS已经超越扶摇，成为国内自动驾驶行业最大的智算中心。

自动驾驶发展进入关键阶段，数据获取效率、处理效率是算法进化的关键，海量的产品数据、超大规模的数据训练、大模型的应用等，都对算力提出了更庞大的需求。

值得一提是的，MANA OASIS是毫末建设的私有云。

就采用公有云还是搭建私有云的话题，我们曾咨询过多家自动驾驶公司，目前多数玩家还是以公有云为主，大家普遍认为，是否自建的核心在于性价比考量。而随着数据存储、处理量越来越大，公有云就越来越不具备成本优势。毫末建设私有云，一方面是私有云针对性更强，另一方面也是基于性价比的考虑。

同时，据毫末介绍，在数据管理能力方面，为充分发挥智算中心价值，让GPU 持续饱和运行，毫末历经两年研发，建立了全套面向大规模训练的Data Engine，实现了百P数据筛选速度提升10倍、百亿小文件随机读写延迟小于500微秒。

500微秒意味着什么？毫末解释称，对于数据处理来说，大家一般考虑的是算得有多快。但随着技术的发展，数据处理真正的瓶颈已经不卡在GPU上，并不是显卡本身算得不够快，而是卡在通信上。

只有达到500微秒这样水平的文件读取速度，才能支撑起来能把几十万、几百万的clips放在一起训练。如果做不到这样水平，整个训练速度就会由于文件读取的原因卡住，这就意味着，有相当于大量的GPU在闲置，等待文件系统把数据读上来，才能开始计算。

在算力优化方面，毫末与火山引擎合作，部署了Lego高性能算子库、ByteCCL 通信优化能力、以及大模型训练框架。

在训练效率方面，基于Sparse MoE，通过跨机共享，可完成万亿参数大模型训练，且百万个clips训练成本只需百卡周级别，训练效率提升100倍。

毫末预计，进入2023年，超算中心会成为自动驾驶企业的入门配置，预计会有更多的企业开始投入建设，毫末属于率先摸索的企业。

02、打造五大算法模型，感知模型跨代升级

在介绍毫末打造的五大大模型之前，我们先来解释一下如何理解“大模型”？

大模型也可以称之为基石模型（fundation model），属于深度学习的一种，在AI领域具备里程碑式的影响。

在《2022达摩院十大科技趋势》中，达摩院将其称作“从弱人工智能通向人工智能突破性的探索”。

大模型的主要特征包括三个方面：参数规模大、数据规模大、算力需求大。基于这样的特点，大模型在自动驾驶领域的应用有一定优势。

自动驾驶采集的数据种类繁杂，包括不同传感器采集的数据、实际路测数据、仿真数据等等，小模型因为模型容量太小，无法灌入足够多数据，难以沉淀出有价值的信息，大模型则在模型容量上有保障，能够通过大量数据灌入，学习到关键信息。

交代完这一背景，我们来重点介绍一下毫末MANA五大模型：

1、视觉自监督大模型。这一大模型核心价值是让毫末4D clip标注实现100%自动化，同时将标注成本降低98%。

为了更低成本、更高效获取更多高价值数据，需要解决从离散帧自动化扩充到clips形态的问题。

毫末首先利用海量videoclip，通过视频自监督方式，预训练出一个大模型，用少量人工标注好的clip数据进行Finetune（微调），训练检测跟踪模型，使得模型具备自动标注的能力。

然后，将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip，其中10%是标注帧，90%是未标注帧，再将这些clip输入到模型，完成对90%未标注帧的自动标注，进而实现所有单帧标注向clip标注的100%的自动转化，同时降低98%的clip标注成本。

2、3D重建大模型。核心价值在于数据生成、仿真场景的搭建，以获得海量corner case（长尾场景）。

面对“完全从真实数据中积累的corner case困难且昂贵”的行业难题，毫末将爆火的三维重建NeRF技术应用在自动驾驶场景重建和数据生成中，它通过改变视角、光照、纹理材质的方法，生成高真实感数据，实现以低成本获取normal case，生成各种高成本corner case。

根据毫末介绍，3D重建大模型生成的数据，不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低，增加NeRF生成的数据后，还可将感知的错误率降低30%以上。

3、多模态互监督大模型，主要是为了更加精准识别异形障碍物。

在实现车道线和常见障碍物的精准检测后，针对城市多种异形障碍物的稳定检测问题，毫末正在思考和探索更加通用的解决方案。

多模态互监督大模型引入了激光雷达作为视觉监督信号，直接使用视频数据来推理场景的通用结构表达。通用结构的检测，可以很好地补充已有的语义障碍物检测，有效提升自动驾驶系统在城市复杂工况下的通过率。

4、动态环境大模型，进一步降低对高精地图的依赖。

通过这一模型可以预测道路的拓扑关系，让车辆行驶在正确的车道中。

在重感知技术路线下，毫末为了将对高精地图的依赖度降到最低，面临着“道路拓扑结构实时推断”的挑战。为此，毫末在BEV（鸟瞰图）的feature map（特征图）基础上，以标精地图作为引导信息，使用自回归编解码网络，将BEV特征，解码为结构化的拓扑点序列，实现车道拓扑预测，让感知能力能像人类一样，在标准地图的导航提示下就可以实现对道路拓扑结构的实时推断。

毫末认为，解决了路口问题实际就解决了大部分城市NOH问题，目前在保定、北京，毫末对于 85%的路口拓扑推断准确率高达 95%。但毫末也坦言，这一模型距离大规模应用还有一定距离。

5、人驾自监督认知大模型，可以让驾驶策略更加拟人化。

在探索“使用大量人驾数据，直接训练模型做出拟人化决策”方面，毫末为了让模型能够学习到高水平司机的优秀开车方法，全新引入了用户真实的接管数据，同时用RLHF（从人类反馈中强化学习）思路先训练一个reward model（奖励模型）来挑选出更好的驾驶决策。

通过这种方式，使毫末在掉头、环岛等公认的困难场景中，通过率提升30%以上。这与AGI领域爆火的ChatGPT 的思路相同，通过人类行为反馈来选出最优答案。

在五大模型助力下，MANA最新的车端感知架构，从过去分散的多个下游任务集成到了一起，形成一个更加端到端的架构，包括通用障碍物识别、局部路网、行为预测等任务，让毫末车端感知架构实现了跨代升级。

03、HPilot搭载近20款产品，自动驾驶进入3.0时代

在技术落地层面，毫末也复盘了2022年进展，以及后续的规划。

自发布以来，毫末HPilot智能驾驶系统已经经过了6次OTA升级，迭代到3.0版本。三代HPilot产品搭载至魏牌、坦克、欧拉、长城炮等近20款车型，辅助驾驶用户行驶里程突破2500万公里。

HPilot 3.0也将要正式量产交付，毫末的城市NOH软件封版，并达到交付状态，具备打通高速、城市场景高级别的辅助驾驶能力，首款搭载城市NOH的车型将在2023年上市。

通过重感知、轻地图技术，毫末城市NOH定位是可大规模量产的城市导航辅助驾驶。

预计到2024年上半年，毫末将完成HPilot落地中国100个城市的计划，实现点点互达。到2025年，更大规模全场景的NOH将更快落地，并迈入全无人驾驶时代。

第六届毫末AI DAY上，毫末首次提出自动驾驶3.0时代的概念，这是对于自动驾驶技术发展阶段的一个判断。

毫末认为自动驾驶发展会经历三个阶段。硬件驱动的1.0时代，最典型的特征是，感知能力主要靠激光雷达，认知方式依赖人工规则，整车成本高企，自动驾驶里程数据在100万公里左右。

软件驱动的2.0时代，AI在车上广泛应用，但还是小模型和小数据训练的方式，传感器的识别结果开始融合，但还是基于结果的后融合方式，认知方式依然以人工规则为主，自动驾驶里程数据在100万到1亿公里之间。

数据驱动的3.0时代，数据可以自己训练自己，自动驾驶玩家的侧重点，转移到高效获取数据，并把数据转化为知识上。

从全球来看，以数据驱动为标志，特斯拉领跑全球率先进入自动驾驶3.0时代。在中国，以毫末智行等渐进式自动驾驶企业为代表，正在通过规模量产和高阶辅助驾驶场景落地实现数据闭环，推动自动驾驶技术快速走向成熟。

在此次AI DAY上，毫末作出判断，2023年自动驾驶将全面进入3.0时代。

同时，毫末还做出判断，进入2023年，智能驾驶的用户体验将从尝鲜转变为用户依赖。随着搭载高速导航辅助驾驶系统的智能汽车大量进入市场，智能驾驶系统能力不断提升，用户使用时长和粘性也在不断增加，智能驾驶系统的核心价值将会逐步从体验尝鲜转变为功能依赖。

自建智算中心“绿洲”、打造五大算法模型，解读毫末自动驾驶最新进展

01、抢先投入大算力基建 智算中心“绿洲”发布

02、打造五大算法模型，感知模型跨代升级

03、HPilot搭载近20款产品，自动驾驶进入3.0时代

相关推荐

01、抢先投入大算力基建智算中心“绿洲”发布