毫末智行AI DAY：智算中心、五大模型助力毫末加速迈入自动驾驶3.0时代

作者 | 张萌宇

2023年1月5日，在第七届HAOMO AI DAY上，毫末智行智算中心“雪湖·绿洲”（MANA OASIS）重磅发布。MANA OASIS由毫末智行与火山引擎联合打造，每秒浮点运算达到67亿亿次，存储带宽每秒2T，通信带宽每秒800G。

基于火山引擎大数据积累和底层技术，MANA OASIS实现的计算、存储、通讯能力，让数据更快速转化成知识，以实现降本增效的目的。
在MANA OASIS的加持下，毫末MANA五大模型——视觉自监督大模型、3D重建大模型、多模态互监督大模型、动态环境大模型、人驾自监督认知大模型全新升级亮相。

这五大模型分别实现了什么功能呢？

接下来，我们将一一介绍。

视频自监督大模型

让毫末在中国较早实现4D Clip的自动标注。

为了更低成本、更高效获取更多高价值数据，需要解决从离散帧自动化扩充到Clips形态的问题。毫末首先利用海量video clip，通过视频自监督方式，预训练出一个大模型，用少量人工标注好的Clip数据进行fine tune（微调），训练检测跟踪模型，使得模型具备自动标注的能力；然后，将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成Clip，其中10%是标注帧，90%是未标注帧，再将这些Clip输入到模型，完成对90%未标注帧的自动标注，进而实现单帧标注向Clip标注的转化，同时降低Clip标注成本。

3D重建大模型

助力毫末做数据生成，用更低成本解决数据分布问题。

面对“完全从真实数据中积累corner case困难且昂贵”的行业难题，毫末将三维重建NeRF技术应用在自动驾驶场景重建和数据生成中，它通过改变视角、光照、纹理材质的方法，生成高真实感数据，实现低成本获取corner case的目标。

多模态互监督大模型

可以完成通用障碍物的识别。

针对城市多种异形障碍物的稳定检测问题，毫末引入了多模态互监督大模型，此模型直接使用视频数据来推理场景的通用结构表达。通用结构的检测，可以作为语义障碍物检测的补充，提升自动驾驶系统在城市复杂工况下的通过率。

动态环境大模型

采用重感知技术路线，降低自动驾驶系统对高精地图的依赖。

毫末在BEV（鸟瞰图）的feature map（特征图）基础上，以标清地图作为引导信息，使用自回归编解码网络，将BEV特征解码为结构化的拓扑点序列，实现车道拓扑预测。如此一来，毫末的感知系统能像人类一样在标准地图的导航提示下就可以实现对道路拓扑结构的实时推断，对高精地图的依赖度显著降低。

人驾自监督认知大模型

让毫末的驾驶策略更加拟人化，安全及顺畅。

在探索“使用大量人驾数据，直接训练模型做出拟人化决策”方面，毫末为了让模型能够学习到高水平司机的优秀开车方法，引入了用户真实的接管数据，同时用RLHF（从人类反馈中强化学习）思路先训练一个reward model（奖励模型）来挑选出更好的驾驶决策。通过这种方式，毫末的自动驾驶系统在掉头、环岛等公认的困难场景中的通过率显著提升。

顾维灏表示，“在五大模型助力下，MANA最新的车端感知架构，从过去分散的多个下游任务集成到了一起，形成一个更加端到端的架构，包括通用障碍物识别、局部路网、行为预测等任务，毫末车端感知架构实现了跨代升级。”