端到端做L4的神话,该结束了。
永徽六年(公元655年)九月的某天,唐高宗召集长孙无忌、李勣、于志宁、褚遂良(著名书法家),于内殿议事。
而这四个人心里也清楚,这是要“废王立武”。一开场,唐高宗表情有些不安,视线飘忽不定,用略显尖利的声音说到,“皇后无子,吴昭仪有子,因而朕欲立昭仪为后,众卿以为如何?”
这是《则天武后》描述的名场面。而这句话,也拉开了属于女皇武则天的时代序幕。
而这一天过去1369年后的九月初九重阳节,一个“歪果仁”的无冕之王开了一场“We, Robot”的发布会,此前还宣称“这将是载入史册的一天。”但是,让人奇怪和失望的是,发布会19分钟草草收场。
特别让人诧异的是,这位国内俗称“老马”的特斯拉CEO伊隆·马斯克同样“表情有些不安,视线飘忽不定”。马斯克没了往日的淡定和自信,脸色潮红、耸肩撇嘴、眼神飘忽,身体语言出卖了他,整场发布会都显得不在状态。
原来说好落地的Robotaxi,亮了个相而已,时间拖到了2026年。虽说谈到成本会降低5倍,从1美元/英里降到0.2美元/英里,然而很明显,“画饼”后的股价掉了4700亿人民币。
有位智驾大牛侯晓迪说过,马斯克10月份的发布会,Robotaxi还是“做不出来”。这就像是一句讖语,彻底戳破了马斯克的“神话”。而马斯克欲引领业界的“端到端”,也许,永远也到不了L4的彼岸。
01、神话不再
那么,用“端到端”做Robotaxi到底是不是个“坑”、一场L4的“骗局”呢?
“端到端”是在特斯拉公布后火起来的,发展到今年,甚至没有搞“端到端”的车企,出门都不好意思跟人打招呼。
不过,被“神话”的特斯拉在Robotaxi上,自己也掉“坑”里了。今年,在发布二季度财报的同时,马斯克正式宣布其Robotaxi的产品发布会将从8月初推迟至10月初。连续跳票后的发布会有草草收场,让我们看到了马斯克的囧境。
问题是,马斯克此前的成功,让相信马斯克、追随马斯克的人很难相信他会失败,这也是创投圈的“政治正确”。而且,马斯克以一套不可证伪的话术,完美地把自己的技术差距说成是数据和算力的差距,数据、算力不够,正好就请投资人继续投资嘛!这就形成完美的闭环。
如今,完美的闭环眼看着要断裂。比如,离开图森未来、在美国成立新公司Bot.Auto的侯晓迪,就预言马斯克Robotaxi“做不出来”,“Robotaxi现在的性能和真正的L4差太远了。”
国内也有人开始反思马斯克的“端到端”,余承东也讲过马斯克的智驾上限和下限的问题。所以,在这些异见者看来,Robotaxi不是靠解决一两个Bug,延期两个月就能发布的。
此前侯晓迪接受采访时还预言:10月10日(原定)仍然不会是Robotaxi真正发布的时机,甚至明年都不是它可以应用的时间点。今年10月份顶多公布关于何时真正发布Robotaxi的线索。
11日的发布会印证了侯晓迪的预言。整场发布会没有细节,选择的地点也是环球影城的电影棚,你说巧合也行,说“演”也行,反正是挺应景的。且在体积与Model 3相当的Cybercab里,只放置了两个座位,说它是Robotaxi吧,却损失了车辆运力,且不会带来炫目外观之外的任何好处。
不出意外,另外Waymo和百度的两个“萝卜”可能会反超过去。这让我们怀疑,马斯克是不是就像蔡崇达的《命运》里说的,“被卡住了”。就像现在那个著名的L4的“车辆突然卡死在十字路口影响交通”的问题无解一样。
不过,国内的百度“萝卜快跑”,作为早期站在聚光灯下的推动者,在武汉投放400辆无人车后,未来能达到什么规模的投放,还是个疑问。至少目前业内没有人有大规模推广的能力,这也是无人驾驶需要解决的技术产品化问题。
还有,认为无人驾驶明天就能实现的奢望,这是高估了短期突破的体现。就像艾伦·凯(2003年图灵奖得主)说的,“人们总是高估短期技术的短期突破,但是会低估技术的长期影响。”
所以,对于专业智驾人士来说,路漫漫其修远兮,L4是做限定场景的,而特斯拉是为了在全世界卖车,那就该老老实实地说自己的FSD是L2+的水平,而不是通过营销让大众混淆,最终南辕北辙,搬起石头砸自己的脚。
02、“不可解释性”是BUG
为什么马斯克的“端到端”可能会“触礁”?我们就来分析一下。
业内也有人包括马斯克本人相信,L2能渐进发展成L4。但L2功能做得再好,最多只完成L4的三成功能。从这点来说,特斯拉就是L2+公司,而不是L4公司,毕竟,它的很多设计不是出于安全或冗余的目的。
“L4必须有可解释性,不能仅依赖说不清楚的数据黑盒子。”这是侯晓迪的原话。这也揭示了端到端的BUG所在。“端到端”是个黑盒子,充满不可解释性。
在2024中国汽车论坛——高阶智驾论坛上,地平线智驾产品市场总监刘文尧演讲时也讲到,“端到端的技术路线由于是数据驱动的,在上限上的表现会更高,它能明显在更复杂的场景当中有更好的体验。
但是,由于它是一个不可解释的黑盒的模式,完全放弃规则驱动(Rule-based),意味着它的下限就会不可控,很可能出现人都无法解释的诡异的驾驶安全行为。而且在这个行为出现的情况下,你很难对它做一个快速的Bad Case的迭代,因为你自己都解释不出来它为什么这么做,根因是很难找到的。”
而从国内的智驾现状来说,过去数年,几乎所有的智驾企业选择的都是可解释的“模块化”的路线。在模块化的结构中,智驾系统被拆解、融合为“感知-规划-控制”三大模块,像华为、小鹏的端到端大模型,就更近似于模块化方案演变、融合后的结果。
当然,模块化结构一直存在的“硬伤”是,尽管模块数已经变少,但感知端为了保证规控端的平稳运行,仍有可能出现被迫丢失信息的情况。而系统的决策又需要获取足够全面的信息,才有可能达到全局最优。这是避不开的、最为矛盾的一环。
所以,为了解决近乎无穷的“Corner case”,大家又一股脑地投入“端到端”的热潮中去。
而从基于规则的Rule based,到基于深度学习Learning based,所谓“数据驱动”,通过海量的数据支持,来归纳求解,这是业内车企竞相选择端到端大模型的重要因素之一。泛化能力虽然更强,但海量的数据并不一定能够对系统产生正向的提升。
当下最极端的论点是,无人驾驶距距离攻克也就是几千万公里的Corner case,以及大量的算力。这是典型的围绕“数据驱动”、“端到端”创造出来的愿景,两者相辅相成,智驾领域的投资泡沫就是这么来的。
问题是,从技术角度来看,“端到端”极其依赖于大模型内部的神经网络结构,而神经网络本身又具备不可解释性,所以业内关于端到端的应用和界定一直是各执一词。
众所周知,人工智能的三大流派——连接主义、行为主义和符号主义,虽然当下连接主义成为主流,但这三大流派各有强项,且连接主义采用的是深度学习,是个归纳、统计型的算法,这种“连接主义解决一切”的想法能不能实现?是个问题。
归根究底,成功落地、实现量产,提高驾驶安全性和便捷度,才是智驾的核心。所以,用一个主义解决全部问题是不太可能的,需要兼容并蓄。
这方面,我赞同侯晓迪说的,对于内行人来说,现在“端到端”不是一个学术概念,而是一个情绪载体,“很容易把机器学习领域没有完成的梦想和未竟的事业都寄托到‘端到端’这个具体技术概念里。”
03、One Model,Two Model,World Model
质疑马斯克的,不仅有侯晓迪,也包括小马智行CTO楼天城和轻舟智航 CTO 侯聪。
侯聪对于马斯克和Robotaxi的看法是,“Robotaxi 这个事情他有点吹牛了,低估了事情的难度。”而楼天城的一个结论是,L2做得越厉害,它离L4越远。反之也是如此。一个越好的L4公司,它离L2越远。
为什么?因为,辅助驾驶就是一个助手,它的成本和覆盖区域很重要,跟人类交互很重要。而L4的驾驶主体是机器,所有事情都要机器端解决,不能交给别人。哪怕稍微慢一点,安全性100%一定要保证。
而特斯拉做Robotaxi的逻辑是通过L2辅助驾驶的数据不断积累实现L4级的Robotaxi,这无异于缘木求鱼。这也是几位反共识的“异见者”的结论。
而且,有意思的地方在于,当初马斯克是为数不多坚持通过L2数据积累不断实现L4的人,在当时被外界认为是异类。如今反过来了。
换句话说,通过L2的渐进式路线做不出L4。L2的驾驶主体是人,L4的驾驶主体是机器;L2关注的核心是成本、覆盖范围和体验,L4更关注的是安全。所以,L2和L4的产品设计出发点都不同。
所以,2024杭州云栖大会上,小鹏汽车董事长何小鹏对于特斯拉的盲目崇拜和盲目自信就很让人担心,“端到端的模型下限能力有望在明年快速提高,一旦提高后,不用2年时间,在全球范围内就可以做到超越 L4 标准的能力。”
问题在于,L2级智能辅助驾驶背后有人类司机兜底,但是L4的Robotaxi不行,要做到更好的商业化,做到车内无人,没有人给系统兜底,车辆的驾驶权属于系统,责任属于企业。所以系统就要无限提高安全上限。这是难点所在。
当然,就当下的情况而言,要达到“端到端”的目的需要不断有突破性的手段。最近的动向是关于世界模型的。
现在是Two Model、World Model、One Model三部曲思路。因为,尽管端到端上车如火如荼,但目前大部分中国车企并未实现理论上的“One Model”。通行的做法是,将端到端模型的智驾应用分为两个阶段:
第一个阶段是“Two Model”,由一个端到端的感知和一个端到端的规控组成,这是目前比较主流的一个方向。第二阶段才是“One Model”,一个大模型解决信息输入到决策输出,但业内预估要3~5年之后才会有一些规模化的应用。
此外,蔚来、理想等车企都发布了自研的“世界模型World Model”,供应商中有地平线、小马智行等。像楼天城就认为,“World Model”是目前最佳最重要的东西,将其理解为通往自动驾驶的唯一解。
所谓世界模型,可以理解为对真实世界的仿真与建模,可以真实准确地还原比如十字路口等场景的变化。同时,世界模型还是一个评分体系,对自动驾驶系统的表现做出评价,能够得知A系统和B系统相比谁更好。
蔚来自动驾驶副总裁任少卿表示:“相比于常规的端到端的模型,新的世界模型有三个我们认为主要的优势。第一个是在空间理解上,通过生成式模型,从重构传感器的方式,更加泛化地抽取了信息。第二个,通过自回归模型,自动建模长时序环境。第三个,万千世界需要更多数据,通过自监督的方式,无须人工标注,它是一个多元自回归生成模型结构,让我们学得更好。”
此外,地平线也在感知上引入了“World Model”的概念。地平线认为,通过World Model的算法训练可以解决场景的泛化、功能的连续性以及体验的一致性的问题。不过,在规控算法上,保留了Rule-based的链路。
世界模型的作用能有多大,还属于未知。但是,说到底,Rule-based(基于规则)或者说Principle-based是不能放弃的,妄图完全依靠端到端的“黑盒子”来解决问题,包括特斯拉、华为、小鹏等头部车企正在做的事情,都得当心,正在做不等于有结果。
L4的核心是如何完成一个稳定的系统,尤其是用不稳定的模块去完成一个稳定系统。L4需要的是智慧,而不仅仅是资本和算力、数据、智商。在这点上,即使强如马斯克也同样如此。根本的办法还是,通过架构层创新来保证系统的安全性,做好安全冗余。
反观当下各个企业喧嚣的“端到端”宣传,更多的目的还是打造差异化、把车卖出去。那么多的“心大了”的智驾事故,已经很说明问题。这是我们应该心里“门清”的。
作者丨王小西
责编丨北 岸
编辑丨王 越