爆火的Sora将给自动驾驶带来怎样的改变？

近日，OpenAI宣布推出生成式人工智能模型Sora，外界普遍认为，这是AI视频生成的全新里程碑时刻。仅需只言片语，Sora就可以给你输出一段最长60秒的视频，并且能够全程保持高度的流畅性与稳定性，实现了对Runway、Stable Video、Pika等生成式AI的超越。值得一提的是，Sora还能够根据静态图像扩展成一段视频或补充缺失的动态帧。真赋能也好，蹭热度也罢，一时间整个行业都在围着AI转，也在开始认真思考，更先进的AI技术能够为他们带来什么不一样的应用场景。站在汽车行业的角度，Sora等更超前的大模型是否能助力智能驾驶的真正落地，其中最先从大模型获益的当属感知模块，本文想从大模型助力感知的表达来一探Sora将带给智驾领域的革命。

感知表示的多样性

感知的表达形式是多种多样的，在现如今的主流自动驾驶框架中，感知物体的表达形式往往分为以下几类：

一是通过bounding box的形式来表示。对于常规物体例如交通流中的车辆，行人，自行车等等，Box的表达已经完全可以胜任，且具备高度抽象和简洁的优势。但当我们谈论到高级别自动驾驶，我们需要关心的是一切不可碰撞物体，其包含了栅栏、非刚体车、异形/未知类别物体、遗落的木头块等，Box并不能总适应这样的物体，尤其在狭窄路段，box的表示往往会过于保守，导致车辆行为笨拙。

那么如果用polygon的形式是否就可以呢？相较于box，polygon的表达可以几乎不丢信息地完成障碍物的形状表达，同时兼备了抽象和简洁的性质，但与此同时由于其是在连续空间中的表达，对算力的要求非常高，因此较难以落地。

那么是否可以结合一下离散空间与连续空间的表达形式，对两方都有一定的妥协呢？Tesla的Occupancy Network便给出了一个很好的结合样例。基于Grid的表示，能从本质上解决目前感知完备性的问题，从激进的角度，甚至可能代替掉Box的表示。而这一形式的推出，也立即成为了各家自动驾驶企业的效仿对象，不仅在论文刷榜中取得了优异的成绩，也在实车落地上取得了迄今为止最好的表现。但与此同时我们不禁想问，Occupancy Grid已然是最好的感知表达形式了吗？难道这个讨论了十几年的问题已经有了最终答案，没有再改进的空间了吗？

下游规控的易用性

我们知道，感知想要完备地从各个传感器的输入中，提取出想要的物体，并将其进行语义上的融合是一项非常困难的任务，也在困扰着诸多的业界从业人员。其中非常大的一项挑战便是，在信息的处理传递过程中，肯定会存在信息的损失。而这种信息的损失最终也会造成下游决策规控的出错。而要想解决这一问题，最好的方式便是以规控的目标作为代价函数，来优化感知的输出形式。

一直以来，模块化处理复杂问题的最大劣势便是信息的丢失问题，而端到端想要解决的便是彻底消除此间丢失的信息。通常，模块化系统被称为中间范式，并被构建为离散组件的管道，连接传感器输入和运动输出。模块化系统的核心过程包括感知、定位、建图、规划和车辆控制。模块化流水线首先将原始传感器数据输入到感知模块，用于障碍物检测，并通过定位模块进行定位。随后进行规划和预测，以确定车辆的最佳和安全行程。最后控制器生成安全操纵的命令。

另一方面，直接感知或端到端驱动直接从传感器输入输出自车运动。它优化了驾驶管道，绕过了与感知和规划相关的子任务，允许像人类一样不断学习感知和行动。端到端驾驶基于传感器输入输出自车运动，这种运动可以是各种形式的。然而，最突出的是相机、LiDAR、导航命令、和车辆动力学，如速度。这种感知信息被用作主干模型的输入，主干模型负责生成控制信号。自车运动可以包含不同类型的运动，如加速、转弯、转向和蹬踏。此外，许多模型还输出附加信息，例如安全机动的成本图、可解释的输出或其他辅助输出。但整个系统过于庞大，并缺少一个整体的优化目标，使得端到端无法真正落地产生效果。随着UniAD的提出，以planning的目标作为整个系统的优化导向，并分模块对各个子系统进行打分，给从业者们一个新的思考方向。

Sora助力端到端落地

OpenAI表示，Sora在训练当中表现出了与其它模型不同的涌现能力，通过涌现学习到了物品的时间与空间的相关性，以及与周围世界互动的能力等。简单来说，Sora不单止是拥有感知世界运行法则的能力，它还可以判断不同事物之间的关系，拥有发散思考的技能。智能汽车当中的智能驾驶能力也是训练AI模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块，每个部分紧密配合，最终实现精确的智能驾驶。智能驾驶的不同模块，目前都需要单独训练，训练量庞大，研发人员要通过不断地“喂数据”优化迭代，所带来的沉没成本自然巨大。

人在驾驶汽车的时候，很多判断都是基于对这个世界的理解，比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。

但Sora对世界的感知和交互能力，并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率，人为优化迭代是必须，更重要的还是要让AI具备自主发散，缩短迭代周期，将交互能力赋能到现有的智驾模型当中，更接近人类的驾驶体验或许就此诞生。

但与此同时，端到端的落地也伴随着相当多的挑战。首先是神经网络的可解释性问题。可以想象，如果自动驾驶的车辆调试时出现安全问题，工程师们在排查问题时可不能说一句：“需要多采集点数据，问题便可能得到解决”就能够应付的。事关性命安全问题，需要的是像汽车行业几百年累积的经验一般，要保障每辆车的安全性，这里容不得概率与可能性作祟。

其次便是用户的接受程度。在自动驾驶的过程中，用户肯定希望能看到这辆车的行为，好对行进状况有个心理预期。而传统的分模块方案，感知的表达可以通过各种各样的形式可视化出来，但端到端却不具备这样的能力，其更像是一个黑盒。在这种情况下，销售如何向用户保证这套系统的安全都是没有说服力的，用户的接受程度将会成为落地上真正困难的一环。

在过去的几年里，由于与传统的模块化自动驾驶相比，端到端自动驾驶的设计简单，人们对它产生了浓厚的兴趣。在端到端驾驶研究呈指数级增长的推动下，越来越多的感知表达形式被提出，人们也希望在端到端的框架下，实现一种更加完备的感知表示方案，在保障规控接收到足够信息的同时，也减轻感知对于算力的依赖负担。而Sora的爆火相信也会给智驾行业指明一条全新的道路。

爆火的Sora将给自动驾驶带来怎样的改变？

感知表示的多样性

下游规控的易用性

Sora助力端到端落地

相关推荐