从技术预言家到量产实干家。
“你对王传福的观点怎么看?”这是今年上海车展采访间里可能最高频的问题。
4月初,比亚迪董事长王传福在一场投资者沟通会上表示:“无人驾驶都是扯淡和忽悠,是一场皇帝的新装。”
出乎提问者意料的是,从纷纷押注智能驾驶的主机厂,再到头部智驾供应商都对此表示赞同:“无人驾驶很难实现。由机器完成驾驶行为,而人类驾驶员作为监督者的自动驾驶将会是中长期的主流路线。”
行业变化也佐证了这一观点,人机共驾的智能驾驶辅助正走向大规模量产和高阶能力的深水区。而立志无人化的L4级自动驾驶公司则面临资本退潮的现实压力,纷纷选择功能降级,加入辅助驾驶产品的竞争。
“只有退潮了,才知道谁在裸泳”,看来巴菲特的这句名言对科技行业同样适用。我们也可以说,同样因为退潮,我们也能看到哪些玩家已经率先取得领先,进入了深水区。
目前,中国高阶智驾能力的先发名单中已有华为、小鹏汽车、毫末智行三位玩家。
一位是根技术深厚的科技大佬、一位是ALL IN智能化近十年的新势力三强,还有一个是成立仅三年的毫末。
在自动驾驶领域,毫末为何能与华为、小鹏并肩,站在高阶智能驾驶从技术验证到市场爆发的前排位置?
这需要深入毫末过去三年发展中寻找到答案。
准确预判未来的毫末
未来难以预测,但科技创业公司必须准确预判未来,因为生死攸关。
对于所有科技公司来说,技术产品研发与市场落地应用有着漫长的产业链和一定的时间差;而对于创业公司,较少的资金和客户储备意味着极小的容错率。所以,科技创业公司能够取得成功的先决条件之一,就是要准确预判未来,选对适应市场的技术路线,并忠实地执行落地。
从结果来看,有着主机厂+科技互联网公司双重身份基因的毫末做到了。
回溯2019年,L4无人驾驶不仅颇受资本市场青睐,更开始在多个城市落地试运营;国内外的大型汽车集团采用L2级和L4级并行的双技术路线投入,并且不乏试水Robotaxi车队的车企。
但同年成立的毫末,却在一开始选择了看上去不那么“远大”的技术路径:从低速到高速、从载物到载人、从商用到民用的渐进式发展的技术商业路线。
“未来智能驾驶和智能交互技术支撑起来的出行工具将成为我们的第三空间,下一个十年毫末认为人类最大的变革将来自于智能化的出行工具。毫末将利用自动驾驶大规模量产的技术能力和数据智能优势,助力客户赢得这场战争。”在2021年3月首届技术品牌日(后更名为“HAOMO AI DAY”)上,毫末智行董事长张凯对智能驾驶的本质属性和突破关键做出了判断。
当天,毫末智行CEO顾维灏从费用成本和迭代速度两个维度,首次分享了数据智能驱动自动驾驶升级的技术路径。
在2021年12月HAOMO AI DAY上,顾维灏正式完整地解读了这一战略路径的选择逻辑:“数据是人工智能最大的驱动力,数据也是这个进步过程中最大的成本,自动驾驶产品的完善是个漫长的进化过程,就像是智人在漫长的历史过程中,一定要找到用最低能量消耗维持生命的方法,这样才有机会开发智力和积累经验进化人类文明。所以我们数据智能的核心,也是降低成本,提高迭代速度。”
此后,顾维灏又将毫末数据智能的“思想钢印”看作自动驾驶的第一性原理:毫末用更低的成本和更快的迭代速度,为用户提供更安全、更好用的产品。
在2021年的第三届技术品牌日上,张凯表示,2022年将是AI自动驾驶商业化分水岭之年,智能驾驶将从高速简单场景渐进到城市复杂场景。自动驾驶的商业化落地将采用渐进式的路线逐步落地。
“规模化商业落地的进程和节奏决定一个自动驾驶科技公司能够走多快,持续稳定、高质量的场景数据决定一个自动驾驶科技公司能够走多远”,张凯的判断很大程度代表了毫末对数据驱动技术路线的原点思考。
以此为方向,毫末明确了利用乘用车、末端物流自动配送车和智能硬件三个终端,不断积累场景数据,促进数据能力的迭代,从而能生产出更好的产品,形成良性循环的“风车战略”。
现在,自动驾驶的技术路线开始从跨越式向渐进式收敛,验证了毫末三年前的判断。
原本聚焦Robotaxi、Robobus、干线物流等领域的L4自动驾驶公司纷纷倒戈推出自己的L2+辅助驾驶产品;地平线作为中国自动驾驶产业链头部供应商则明确表示L3、L4级自动驾驶十年也实现不了,各家应着力将L2+高阶驾驶辅助能力打磨至高效可用;比亚迪作为“后来者”更是在一面炮轰“无人驾驶”是“扯淡、忽悠人”,一面大力布局自动驾驶和智能辅助驾驶产品。
而毫末的“风车叶片”则在三年间“转”来了大量的数据和多次迭代。
“2021年,毫末智行提出中国自动驾驶的新范式,也就是毫末智行的致胜公式——以领先的数据智能体系乘以稳定的量产能力乘以安全,之后再乘上生态的N次方,毫末智行的致胜公式源于毫末对自动驾驶行业的深刻理解。”张凯说。
截止2023月4月初,毫末辅助驾驶用户行驶里程已经突破4100万公里,小魔驼的配送量也超过了16万单,智能数据体系MANA(雪湖)的学习时长超过56万小时,虚拟世界驾龄相当于普通人类司机行驶经验的6.8万年。
在一线市场验证的基础上,毫末于2022年9月首个提出自动驾驶3.0时代的概念:
近十年来,自动驾驶产业经过了硬件驱动,数据规模在100万公里的1.0时代;软件驱动,数据规模在1亿公里以下的2.0时代。2023年开始,将进入数据驱动,数据规模达1亿公里以上的3.0时代。
而毫末已经为3.0时代备战许久。
毫末的城市NOH方案为什么能不用高精地图?
今年,搭载毫末HPilot3.0系统,具备城市领航驾驶辅助功能(以下简称城市NOH)的魏牌新摩卡DHT-PHEV和蓝山将先后上市。
随着两款车型交付,毫末城市NOH将首批落地在北京、保定、上海等城市,并于2024年开拓100个城市。
值得注意的是,毫末城市NOH的技术方案,与目前已经量产上车的小鹏和华为有着本质的不同。
小鹏和华为的量产方案在城市领航中采用高精地图作为重要的“传感器”,但毫末则将只基于导航地图实现城市领航功能,像人类驾驶员一样开车。
作为后发者,为什么是毫末率先脱离高精地图?从毫末过去三年的技术积累上可以窥见一斑。
高精地图能够预先提供“正确”的静态环境,从而大幅降低感知难度。例如面对红绿灯时,感知模型可以先在高精地图上预瞄红绿灯位置和车道线关系,然后进行的识别。
但高精地图由于鲜度和成本问题,难以被广泛应用在城市领航中。2022年4月毫末率先提出“重感知”的城市领航方案后,这一技术路线已成行业共识,华为、蔚小理宣布的方案都是以无图、脱图为目标。
但要想离开高精地图这个“拐棍”,就需要能够自己“认识”红绿灯,并能将其与车道线对应关系绑定,甚至能够自己“画出”地图的感知算法。
2023年1月,毫末率先拿出了端到端的车端感知架构,将包括车道线、车辆、红绿灯、通用障碍物识别、局部路网、行为预测等分散的多个下游任务集成到了一起,使自动驾驶系统能够“自己认路”。
“实现了一个跨代升级,能够更好地支持我们跨入自动驾驶的3.0时代”,顾维灏表示。“跨代升级”的背后,是毫末自己已经走过,其他玩家正在走的从方法论到工程化的实践之路。
早在2021年6月,毫末在一次技术活动中展示了后来业内耳熟能详的Transformer算法。
“Transformer 结构由于其特性,在自动驾驶的各独立传感器中都获得了应用,比如增强单相机全局感受野、时序融合中的运动物体位置偏移的自动对齐。”顾维灏在当时的分享中已经对Transformer的应用前景有了颇为准确的判断。
但从前景判断到实现前景,是一系列的攻坚克难。
2021年12月,毫末亮相了与特斯拉“九头蛇”类似的感知模型网络。底层骨干网络计算好基础数据后,两个分支网络一个做路面特征识别,一个做可行驶空间和场景识别。其中路面特征识别包括8个小模型,分别计算车道线、停止线、道路边界、分割、车辆、交通灯和道路弱势使用者。
与之后一年大部分玩家拿出的,对视觉和激光雷达感知进行结果融合的方案不同。毫末的这一感知模型是对摄像头和点云数据在骨干网络中直接融合。并在提取一层特征后,利用RNN(循环神经网络)和光流SLAM(即时定位与地图构建)进行时空融合,得到时空一体的模型后,再进行多头计算。
“我们最终的目标是把现实世界反映到我们的向量空间里。”顾维灏在当时就表示。
此后,毫末进一步就城市场景中的重点问题进行技术攻坚。
例如在2022年4月亮相的双流模型:一路包含对红绿灯灯箱的监测、灯型分类、输出颜色、形状和朝向形信息;一路则负责红绿灯绑路,输出目标车道的红绿灯灯组。并且利用空间注意力机制将两者结合起来。
也是从这时,毫末开始探索利用Transformer中的Attention(注意力机制)结构,打造统一的融合框架,并且对Transformer算法的应用更为上手。
2022年9月,毫末拿出了时序BEV方案。
“我们用时序的Transformer模型在BEV空间上做了虚拟实时建图,通过这种方式让感知车道线的输出更加准确和稳定,在这个时空下对障碍物的判断也更准确了些。”顾维灏在当时的演讲中谈到:“我们已经可以解决部分的道路模糊、复杂路口、环岛等问题,整个过程只需要普通导航地图里面的相对可靠的拓扑信息即可,就像我们自己开车一样。”
2023年上半年,华为、小鹏等头部玩家开始量产上车时序BEV感知方案。
也是在2023年初,毫末亮相了用于通用障碍物识别的多模态互监督大模型,以及用于构建实时道路拓扑结构,并从而降低地图依赖的动态环境大模型。
4月,毫末最新的感知大模型,已经可以同时学习感知环境当中的三维空间结构和图像纹理信息,从而可以适配所有主流的视觉感知任务。
基于纯视觉的感知能力,毫末目前已能够将此前安排在智驾系统外的鱼眼相机引入BEV架构中来进行近距离视觉测量任务,并实现15米内30cm,2米内高于10cm的测量精度。
“这样的精度可以让我们用视觉取代超声波雷达,进一步降低整体方案的成本。”顾维灏表示。
至此,我们完整回顾了毫末在“重感知”路线的快速技术演变,从而也就理解了毫末能够在这场高阶智能驾驶产品落地竞赛中拔得头筹的根本原因。
DriveGPT雪湖·海若,像老司机一样开车
与端到端的时序BEV感知架构一同上车的,还有毫末的自动驾驶生成式大模型——DriveGPT雪湖·海若。
“DriveGPT使我们在一个统一的生成式框架下,将规划、决策和推理等多个任务全部完成。”顾维灏表示:“DriveGPT在更大数据的支持下,还是会让自动驾驶系统的决策能力有一个质的提升。这一新技术范式即使放眼全球也是非常独特和创新的。”
雪湖·海若可不是蹭GPT的“热点”,而是毫末在自动驾驶认知领域技术探索和对Tranformer持续应用实践的结果。
顾维灏将毫末的认知驾驶决策分为3个阶段:
第一阶段引入了个别场景的端到端模仿学习,直接拟合人驾行为。
2021年,毫末明确了安全、舒适、高效三大认知要素,通过在CSS安全模型中对安全目标、原则和实现方法进行约定。在此基础上,从数据中学习舒适和高效的量化标准,以及这三要素之间的制约关系。
第二阶段通过大模型,引入海量正常人驾数据,通过Prompt(激励)的方式实现认知决策。
在这一阶段,毫末已经开始探索预训练类的认知模型。
但随着测试的深入,数据的累积,毫末发现分场景微模型方法渐渐显露弊端,会出现运动太机械,舒适感不足的情况。
此外,通过与10万亿参数的阿里巴巴M6大模型合作,毫末初步尝试了基于Attention机制,利用大模型制作热力图,来解决驾驶决策一致性和可解释性的问题,并开始认真考虑建立认知大模型,并为此开始构建毫末的驾驶行为场景库。
2022年底,毫末认知驾驶决策进入第三阶段:引入真实接管数据,同时进入RLHF(强化学习方法),构建基于“旧策略、接管策略、人工label(标注)策略”的pairwise排序模型的自动驾驶决策reward model(奖励机制模型),从而选出最优决策。
这一方法将掉头、环岛等困难场景的通过率提升了30%以上,也为之后的雪湖·海若打下了基础。
自动驾驶系统的决策主要分为预测、规划、控制几个环节:基于感知结果,通过搜索等方法划定出可行驶空间,再在其中根据自车和其他交通参与者可能的行动轨迹进行路线规划,最终决定出一条行驶路线,并将行驶路线分解为车辆动作命令传给执行器。
相比目前业内大部分采用的,分步骤的决策方式。云端参数高达1200亿个雪湖·海若因为能够做到全局思考,所以能够基于感知结果,直接给出规划控制结果和理由:
1、一次性生成多个未来可能发生的全局场景,并且按照可能发生的概率排序;2、生成自车未来的轨迹信息;3、直接给出决策逻辑链。
“除了城市NOH,我们判断,雪湖·海若将在未来在更多场景上将带来突破。比如:高速NOH,城市巡航、驾驶捷径推荐、智能陪练、场景脱困等等,最终我们希望能够抵达自动驾驶的终极场景:无人驾驶。”
顾维灏在演讲中表示,“雪湖·海若的目标是实现端到端自动驾驶,现阶段主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到雪湖·海若。”
MANA雪湖+MANA OASIS绿洲:支撑毫末持续进化
如何将战略和技术选择的领先性延续到量产上车之后?毫末为此做了充分的准备。
毫末于2021年底提出更为具体的自动驾驶能力发展曲线:F=Z+M(X)。
其中F代表自动驾驶的产品力,Z代表基于技术推理得出的初代产品方案,M则是把数据转化为知识的函数,叠加X即行业生态的影响。
“M是复杂的,包括不同类型的数据,也包括对数据的获取、表达、存储、传输、计算和验证。我们思考、实践和沉淀了很多,今天把毫末最核心的数据智能体系MANA(雪湖)拿出来与大家分享。”2022年年底,顾维灏正式将毫末的数据闭环体系雪湖架构介绍给公众。
“毫末的数据驱动体系,是基于毫末真实用户行驶里程提取出的高价值智驾数据,快速挖掘出用户真实的驾驶痛点,持续精准提高智驾产品的用户价值,从而进入产品越好用、用户越爱用精准迭代的正向循环。毫末的数据驱动体系包含用户需求闭环、研发效能闭环、数据积累闭环、数据价值闭环以及产品自完善闭环、业务工程化闭环六大部分。”今年年初,张凯再度对毫末的数据闭环体系进行了解读。
数据闭环体系是自动驾驶研发的核心Know-how,鲜有企业会将其公之于众。毫末此举也为更多玩家构建自己的闭环体系提供了经过实践验证的参考经验。
雪湖由BASE、TARS、LUCAS、VENUS四个子系统组成。
BASE包括数据的获取,传输,存储,计算,以及新的数据分析和数据服务;
TARS是一些关于计算的核心算法原型,用于感知、认知、车端建图和验证的实践;
LUCAS是对算法在应用场景上的实践,包括高性能计算、诊断、验证、转化等核心能力;VENUS是数据可视化系统,包括软件和算法的执行情况,对场景的还原,以及数据洞察等能力。
换而言之,BASE、LUCAS、VENUS三者通多对数据进行收集、标注、仿真、计算等多种方式,支持TARS中的核心算法原型不断升级进化,最终转化为车端的高阶智能驾驶能力。
所以,算法不断迭代的背后,也是毫末数据体系的不断进化。
在数据标注方面,毫末最新打造的视觉自监督大模型不仅能够实现对4D clips(多帧)形态数据的自动标注,而且能够将预测环境的三维结构、速度场和纹理分布融合到一个训练目标中,强迫模型练好内功。
目前,视觉自监督大模型的数据集超过400万Clips,感知性能提升20%。并使毫末能够不依赖激光雷达,将回传视频转化为可用于BEV模型训练的带3D标注的真值数据。
在仿真训练方面,毫末最新的3D重建大模型将NeRF算法和生成对抗网络GAN相结合,打造系统无法区分的仿真环境。不仅能够随意改变静态环境的季节、天气、具体纹理,而且还可构建动态仿真目标,来创造各类极难收集的corner case。
基于3D重建大模型,毫末已将重建误差缩小到10cm,重建效率提升5倍。其训练的系统感知错误率降低30%以上,而且动态物体甚至用肉眼都难分差异。
而为进一步助推雪湖成长,以及对大模型应用前景的肯定,毫末于今年年初拿出了重金打造的雪湖·绿洲(MANA OASIS),成为国内屈指可数拥有自有超算中心的自动驾驶玩家,以大算力支撑大模型和大数据的轮动迭代。
雪湖·绿洲的算力高达670PFLOPS算力,存储带宽达每秒2TB,通信带宽达到每秒800GB,极大满足大规模数据的训练任务。
雪湖·绿洲还针对海若进行了针对性地升级改造。
一是建立全套训练保障框架,避免因个别服务器异常可能导致的训练中断;
二是升级弹性调度资源的能力,使训练平台能够自适应每天回传数据不同的大小规模;
三是吞吐效率的升级,通过算子融合端到端吞吐提升84%。
“我们认为各种传感器数据,包括不同类型、像素、角度对于大模型训练都有非常大的价值;同时,对于不同的场景,包括不同的道路形态、交通流密度、自然环境,大模型都是非常有价值的。”2022年9月,顾维灏在演讲中便表示。也是在当时,雪湖·绿洲已进入筹备期。
技术路径、战略选择、算法、算力、数据,这些决定自动驾驶玩家生死的关键要素,毫末每一步都踩在时代之先,并随着即将量产的3.0产品,站在了AI爆发的前沿应用端。
正如顾维灏在一次演讲中所预言:
从汽车发明后,汽车工业就一直尝试着出行工具能够实现自动驾驶。但是真正具有里程碑意义的智能出行工具,仍然是以机器视觉和深度学习代表关键AI技术所引发自动驾驶车辆的出现。这一技术从二十一世纪初兴起至今甚至不到二十年时间,就在全球汽车产业掀起一场真正意义的智能革命。
在这场智能革命中,中国的研究者和企业不仅没有迟到,还始终和美国一起站在自动驾驶的前沿,从国家政策到行业标准,到技术研发,再到商业规模,始终处在第一梯队的位置。这是一场决定未来数十年技术潮流演进和出行物流形态升级的产业革命之战。
毫末有幸处在这个时代,在自动驾驶浪潮中演绎毫末故事。
作者 | 朱世耘