作者 | 万博
顾维灏:特斯拉是唯一一个进入自动驾驶3.0时代的玩家,毫末智行要做下一个。
刚刚过去的毫末智行第六届AI DAY,从董事长张凯到CEO顾维灏,发言的关键词有2个:“量产”和“数据”。
在量产层面,毫末智行打造的城市NOH即将量产上市,今年年底将在10个城市落地,明年使用范围计划扩大到100城。
末端物流赛道,自动驾驶配送车小魔驼2.0订单量已经超过9万单。小魔驼2.0在今年4月份发布之后,现在已经量产交付,这也是业内首款面向商用市场的10万元级物流配送车。
而谈到数据,就涉及到毫末智行自动驾驶量产路线的底层逻辑——大数据、大模型,和自动驾驶渐进式落地路线。
01、毫末智行最新进展
自动驾驶量产落地,毫末智行走在了行业前列。
张凯披露,截止到目前,用户使用毫末智行开发的辅助驾驶系统所产生的辅助驾驶里程积累,已经超过1700万公里。
海量里程数据之下,毫末智行数据智能体系MANA的学习时长已经超过31万小时,虚拟驾龄达到4万年。
有了MANA的加持,毫末的智能驾驶产品开发和迭代速度大幅提升。两年时间内,毫末HPilot智能驾驶系统已经经过了6次OTA升级,迭代到3.0版本。截止到目前,毫末智行可以做到30个智能驾驶项目异步并行开发。
一套系统在新车型上的复用开发,可以在4个月内达到量产状态。
也因此,毫末HPilot目前已经在超过10款车型上量产搭载,这其中魏牌、坦克、哈弗等品牌已经实现上车,欧拉、长城炮等品牌车型,也正在陆续交付。
而这,也不过是个开始,毫末官方的目标是,到今年年底,HPilot的要在30多款车型上量产上车,未来搭载HPilot的车要达到百万辆级别。
从数据积累到产品开发迭代,再到HPilot上车,最受关注的是,毫末智行即将大规模量产落地城市NOH。
张凯表示,即将量产上市的全新摩卡DHT-PHEV激光雷达版将搭载毫末HPilot 3.0智能驾驶系统,而该系统的最大亮点,就是高级别辅助驾驶第一次在国内走下高速,开进城市开放道路。
据了解,毫末城市NOH,前后开发周期历时10个月,而在此之前,已经在保定和北京两地进行了上路测试,多个城市开放道路中的典型场景测试视频,一同在AI DAY上进行了展现。
比如红绿灯的智能识别和自动启停:
路口无保护转弯:
还有十字路口常见的待转区通行:
这些,只是毫末展示出来的一部分,从视频的实际效果来看,确实已经达到了产品阶段的能力。据了解,毫末的计划是,截止到今年年底,城市NOH落地10城,而到了明年,这个数字要增加9倍,也就是100个城市。
100个城市,一年多的时间,是目标,也是压力,但毫末智行认为,城市NOH在技术层面已经具备了实现的条件。
02、城市场景自动驾驶的六大挑战
在顾维灏看来,城市场景是自动驾驶的核心突破点,而城市开放道路的复杂性也远远超过此前的预期。比如城市道路养护频繁、大型车辆密集、变道空间突然变窄、城市环境多样等等。
而要解决这些难点,需要面对的挑战有6个:
如何在自动驾驶领域应用大模型?
如何让新数据发挥更大的价值?
如何使用重感知技术解决现实空间理解问题?
如何使用人类世界的交互接口?
如何让仿真更真?
如何让自动驾驶系统运动起来更像人?
而解决这些挑战,主要靠的是MANA在感知、数据使用效率等方面的能力进化。
顾维灏认为,在自动驾驶领域应用大模型,首先要解决的问题是,如何能更高效地将数据规模转化为模型效果。
这里涉及的一个关键节点是,数据标注。
大模型意味同时也意味着大量的参数和数据,在这种情况下,数以10亿计的数据标注需要大量的时间和成本。在此之下,就需要一种能够直接使用大量无标注数据的方法来解决问题。
毫末选择的方法是,自监督学习,也就是用大量的无标注数据训练感知任务backbone(主干网络),模型其他部分用标注数据进行训练。通过这种方式,可以将训练效果提升3倍以上,同时精度有显著提升。
关于第二个挑战,顾维灏提到一个现象:在数据量越来越大,达到一定量级的时候,头部场景的数据样本丰富,但(场景)占比少,大部分长尾场景和类别的数据样本匮乏。
比如在车辆识别中,乘用车样本多,但一些异形车的数据就比较少,类似的情况还有带有特殊图文的交通灯、不同样式的汽车尾灯等。
这种现象造成的结果是,训练出来的模型针对一些长尾场景的处理效果不好,同时在加入新数据的时候,还会导致已有的训练效果迅速衰退。
为了解决这一难题,毫末为MANA构造了一个增量式学习训练平台,平时在对模型进行训练时,放弃优化所有参数,而是有选择的对一些特定参数进行定点优化,同时动态观察模型的拟合能力,适时扩充模型的拟合能力。这样就可以节省80%以上的算力,收敛时间提升6倍。
第三个挑战,如果将高精地图数据接进系统就不是挑战,这也目前大多数自动驾驶玩家的玩法,但毫末偏偏走的是“重感知+轻地图”的路线。因为在顾维灏看来,高精地图的迭代速度和成本问题,都无法满足自动驾驶的需求。
但没了高精地图,传感器之外的空间如何感知,自动驾驶如何构建自己所处的3D空间?
毫末采取的方式,与特斯拉的方法有相似之处,那就是让系统自己“脑补”。
具体来说,就是使用时序的Transformer模型在BEV空间做虚拟实时建图,通过这种方式使感知车道线的输出更加准确和稳定。
挑战四,使用人类世界的交互接口。顾维灏表示,过去毫末主要是通过传感器和算法对交通参与者的行为进行预测,以此来对车辆周围的交通环境做出提前反应,但在复杂性更高的城市开放道路,单纯靠“猜”的方式已经不够用了。
解决这个问题的方法是,识别更多的人类交通语言,比如刹车灯、转向灯,这样算法就能更清楚的判断周围车辆的下一步行动,进而做出决策。
第五个挑战,就是让仿真训练的数据更接近真实场景,而在城市开放道路场景下,复杂性往往更高,尤其是应对路口场景,时效性和微量交通流变化的构建存在问题。
为此,毫末与阿里以及浙江德清县进行合作,利用路端设备将路口的全天候真实交通流记录下来,建立自动驾驶场景库。这种采集方式,相比车辆采集数据更加丰富和真实。
至于最后一个挑战,实际上要解决的是自动驾驶的舒适性问题,例如自动启停的机械感和顿挫感。
在这个问题上,顾维灏介绍,毫末主要是通过借鉴多模态大模型的方法来解决自动驾驶的认知问题。通过对覆盖全国的大量人类驾驶行为进行深度理解,构建 taskpromt,训练一个基于时空Attention的驾驶决策预训练大模型,使得自动驾驶决策更像人类实际驾驶行为。
以上,就是毫末智行以自己的角度和方法论,对自动驾驶的核心难题给出的解决方式,而透过这一套方法论,也能看到毫末智行大规模量产背后的关键词:
大数据、大模型,和自动驾驶渐进式落地路线。
03、大数据、大模型的自动驾驶3.0时代
顾维灏将自动驾驶演进分成了三个阶段,三个阶段的不同之处在于,驱动因素不同。
硬件驱动的1.0时代,最典型的特征是,感知能力主要靠激光雷达,认知方式依赖人工规则,整车成本高企,自动驾驶里程数据在100万公里左右;
软件驱动的2.0时代,AI在车上广泛应用,但还是小模型和小数据训练的方式,传感器的识别结果开始融合,但还是基于结果的后融合方式,认知方式依然以人工规则为主,自动驾驶里程数据在100万到1亿公里之间;
数据驱动的3.0时代,在顾维灏看来决然不同以往,数据可以自己训练自己,自动驾驶玩家的侧重点,转移到高效获取数据,并把数据转化为知识上。
当然,自动驾驶3.0时代,被毫末智行看作更高层级的境界,在这个境界中,需要大模型和大数据,大模型是工具,大数据是食粮。这个食粮需要多少?毫末说1亿公里以上。
关于大模型,目前业内的主要认知,也正是将大模型应用于自动驾驶,而毫末智行下手的更早,两年前就开展了基于Attention机制的Transfomer大模型在自动驾驶行业的落地研发。
同时顾维灏还提到,训练大模型需要消耗巨大的算力,举个栗子:一个千亿级别参数,百万个clips大模型,需要上千卡的GPU训练几个月时间,训练时间周期和成本高企。
所以毫末智行经过几个月的筹备,建设MANA超算中心,这个超算中心的目标是,千亿参数百万clips的大模型,整体训练成本降低200倍。
由此,毫末也成为第一个建设超算中心的自动驾驶玩家。
所以最后的落点,就落在了获取数据层面,既要优质,还要便宜,最后还能大规模获取。
有没有先例可循?
特斯拉是一个答案,恐怕也是唯一的答案。具体来讲,特斯拉的FSD快速迭代的时间,和交付量爆发的时间可以说基本同步。
业内的广泛认知是,正是大量搭载辅助驾驶功能的特斯拉汽车进入用户手中,使得特斯拉可以在影子模式下短时间大规模收集自动驾驶数据,对FSD迅速进行迭代。
毫末智行正在复刻这条道路,在短时间内将辅助驾驶产品大量搭载上车,快速获取数据。
而且相比于高级别自动驾驶,辅助驾驶成本更低,也更容易大规模铺开,成本和速度上都有优势。另外在数据的有效性方面,用户真实使用的数据对于大模型来说,也算精品粮了。
不过相比特斯拉,毫末智行的优势是,站在巨人的肩膀上,长城汽车提供了数据容器,毫末智行并不需要像特斯拉一样生死挣扎数年才能迎来翻身。
所以张凯也说:辅助驾驶是自动驾驶落地的必由之路,毫末坚定的选择渐进式自动驾驶落地路径。
而相比之下,业内争论已久的另一条路线,那就是以Waymo、百度为代表的跨越派,一开始就将目光锁定在L4级乃至以上的自动驾驶上。
对错暂且不论,但在自动驾驶落地的步伐上,毫末智行和特斯拉,确实走在前面。
但终局,似乎还没有到来,特斯拉的FSD被曝出问题是常事,毫末智行的城市NOH,还有待市场验证。
所以渐进派和跨越派,你站哪边?