自动驾驶领域正在掀起新一轮技术革命。
在自动驾驶狗都不理的2024年,“端到端”自动驾驶大模型初创公司Wayve.AI,获得10.5亿美元融资;
2024年3月特斯拉推出FSD V12.3,采用了视频输入和控制输出的完全“端到端”的大模型;
小鹏、蔚来、理想等新势力车企都在规划“端到端”上车;
地平线、元戎启行等Tier1也都宣布将部署基于“端到端”的智能驾驶系统……
什么是端到端(end-to-end)自动驾驶?
马斯克在描述特斯拉FSD Beta v12 时,就提到“端到端”自动驾驶,可以实现输入图像,输出转向、刹车、加速等车辆控制信号的能力。(FSD Beta v12 is reserved for when FSD is end-to-end AI, from images in to steering, brakes & acceleration out.)
输入端是感知信号,经过“一个整体的自动驾驶模型”,输出端是控制信号,所以叫“端到端”。
这里为什么强调“一个整体的自动驾驶模型”?这是相对于“经典自动驾驶模型”而言。因为目前已量产的“经典自动驾驶模型”中,基本上采用的都是模块化架构。一个“经典自动驾驶模型”被分拆为多个执行不同功能的模块,每个功能模块实现一个任务——感知、预测、规划、控制等,当然了,每个任务模块下面还有更多更细分的功能。
整个流程基本上是这样的,感知系统(摄像头、激光雷达、毫米波雷达)捕获周围环境数据,将环境数据分析后,把相应的道路信息(车道线、标识、红绿灯等)、障碍物、车辆信息传送给规划模块,做出智能的AI路线规划,进而控制模块根据规划进行车辆各个动力系统的控制。
这是一个典型的按照工程师思维教机器做事儿的思路。
所以这是一种“流水线”式的AI模块组合,好处是可解释性较强,每个模块单独训练,出了问题了顺藤摸瓜找到出问题的环节。坏处也有一大堆,因为是流水线,数据在传递过程中很容易遗漏、误差、失真等,也可能每个模块都是局部最优,但是组合在一起并不一定能够实现整体最优。
比如信息遗漏方面,假设开夜车的时候,远处的弯道闪了一道转瞬即逝的光,可能老司机瞥见了会减速,以提防对面来车。但自动驾驶系统可能就会忽略这一道光的信息,除非事先训练了这个特定场景。
但问题是这种场景千千万,cornercase永远也处理不完。
而大厂都在押注的“端到端”自动驾驶架构,则是通过一个模型实现了多个功能模块的功能,只需要针对这一个模型进行整体训练、调整优化,有点儿通用人工智能AGI的感觉了。
输入端是感知信号,输出端是控制信号,一个模型实现,有点儿ChatGPT大语言模型的意思了,所以最大难点,和ChatGPT一样,就是“可解释性”很差。
这个“端到端”自动驾驶模型毫无疑问目前是个黑盒子。
首先,如果决策执行的正确无误,你也不知道它为什么会这么做,背后的决策原理和逻辑是什么。其次,如果决策失误,也很难溯源为什么会出差错,哪里出了错,将来该如何修正避免,所能做的就是持续喂进更多的数据、增加参数量,通过不断训练、调参,来提高模型的精度。
这妥妥的人的大脑啊,就像我也不知道我为啥打开了手机点了一杯九块九的瑞幸,结果还忘了去取……
而且“端到端”自动驾驶模型的训练数据和经典的自动驾驶模型的训练数据也不一样,不再是简单标注过的环境视频和图像,而是驾驶行为和周围环境融为一体的视频,学习的是驾驶行为,需要教会车机大脑,在不同场景下像人类一样做出反应。
大模型的优势也稍微显现出来了,拼命往里喂海量数据就好了,大力出奇迹,采用无监督训练方式,省去标注环节,等待“涌现”的那一刻就好了。
为什么马斯克会这么狂热支持“端到端”自动驾驶,我觉得跟他一直推崇的“第一性原理”也有关系,这也是为什么特斯拉坚持视觉路线的原因——人开车的时候,并没有那么多传感器,还是两只眼睛为主,所以要实现自动驾驶,要做的是拟人的行为,眼睛、大脑、四肢就足够了,而不是模仿传统信息论下的机器的行为。
总而言之,要实现复杂场景下平稳丝滑的自动驾驶,将略显智障的上一代自动驾驶升维,真得依赖一个拟人化程度较高的车机大脑。
创造一个模拟人脑的车机大脑,以前看似不可能,现在大模型让这个想法成为现实。
其实想想逻辑似乎也讲得通,我们人类在开车的时候,大脑也不是按照经典的自动驾驶模型下感知、预测、规划、控制的流程去做决策啊。特别是在一些相对熟悉的道路上行驶,似乎都是本能在驱动,大脑基本处在僵化状态,更别谈看到每一帧画面,先大脑进行分析,然后再做出决策……if then这个流程,在实际大脑运作中似乎并不存在,除了一些特殊的场合,比如找不到路了,根据路牌,心里判断决策一下,方向盘到底打左转还是右转……
比如理想的下一代自动驾驶系统,就来源于快慢系统理论:快系统(端到端模型E2E),依赖直觉与本能保证大部分(95%)场景下的高效率;慢系统(视觉语言模型VLM),有意识地分析思考解决少数(5%)场景下的高上限。
本质上人的大脑,也是一个黑盒子,不管是不是在开车的时候。
所以有的人也就针对大模型的不可预测性做了一个挺诡辩的回答,不要担心大模型的不可预测性,如果你担心“端到端”自动驾驶模型不可预测不可解释,难道你滴滴打车的时候,就一定认为滴滴司机的大脑和行为可预测可解释?
好有道理,我无言以对。