智能车赛道,藏着一个最隐秘的AI视觉玩家。
这个玩家尚未官宣任何智能车相关的业务进展,但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。
不仅具体技术上突出,在目标检测、语义分割、视觉推理等方面有诸多顶会级研究;还拿下多个自动驾驶相关比赛的冠军,甚至还用7个摄像头的纯视觉方案,完成了高速、城区和泊车环境的自动驾驶。
这个玩家不是特斯拉的AI团队,这个玩家是旷视科技。
在最近的AI顶会CVPR中,大模型加持下的视觉研究,正在驱动自动驾驶方向的新研究,而旷视研究院,在一众自动驾驶和智能车玩家参与的竞赛中,获得了考察自动驾驶环境感知能力的冠军。
AI视觉领域的超级明星,现如今在业务上还没有与智能车传出关联。
但有这样的技术研究和成果,当真会纯出于学术研究?
旷视刷榜了什么自动驾驶比赛?
旷视研究院参加的这个比赛,是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。
其中OpenLane拓扑关系挑战赛冠军,被旷视收入囊中。
挑战赛一共四个赛道,除了旷视参加的OpenLane拓扑关系挑战赛(OpenLane Topology),还有在线高精地图构建挑战赛(Online HD Map Construction)、三维占据栅格预测挑战赛(3D Occupancy Prediction)和nuPlan规划挑战赛(nuPlan Planning)。
其中,OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。
赛道要求基于OpenLane-V2(OpenLane-Huawei)数据集,输入给定环视相机照片,参赛者需要输出车道中心线和交通元素的感知结果,以及这些元素之间的拓扑关系预测。
也就是说,这个比赛不是考察以往自动驾驶感知中,对车道边缘线或者交通标志单一的识别能力,而是要求自动驾驶技术可以感知车道中心线,还要能理解车道中心线和交通元素的逻辑关系,比如绿灯亮了,这意味着哪条车道可以通行。
那么如何判定冠军?OpenLane-V2数据集提供了判定标准:OLS分数(OpenLane-V2 Score),通过计算感知结果和拓扑预测mAP的平均值判定得分。
在34个参赛队伍中,来自旷视研究院的队伍得分唯一超过55分,达到55.19分,具有明显优势。
那么,旷视用了什么样的方法?
旷视的自动驾驶纯视觉方案
首先感知阶段,对于交通元素检测和车道中心线检测两个感知任务,旷视分别采用了两个不同的模型。
对于交通元素检测,旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline,相较于其他2D检测方法YOLO速度更快,性能更准确。
△ 图片来源:GitHub用户RangeKing
再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系,旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick,通过和前视角图像交互生成对应交通元素的特征。
对于车道中心线检测,旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架,可以用于3D目标检测和BEV分割。
而在这次比赛中,旷视利用PETRv2从多视角图像中提取2D特征,以及利用摄像头截锥空间中生成3D坐标,把2D特征和3D坐标输入3D位置编码器。
随后使用3D位置编码器给Transformer解码器生成key和value组件,lane queries再通过全局注意力机制和图像特征进行交互,生成3D车道中心线检测成果和对应的车道中心线特征。
而在拓扑关系预测阶段,旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架,并利用两个感知任务生成的成果拼接对应特征,再使用两层MLP预测对应的拓扑关系矩阵。
(图注:旷视最终在验证集上的预测结果,包括边框、类别和置信度)
最后从OLS得分来看,旷视团队的这套方法在交通元素感知(DETt)、车道线之间拓扑关系预测(TOPll)和车道线与交通元素拓扑关系预测(TOPlt)方面均领先于其他参赛者。
智能车赛道最隐秘的AI视觉玩家
参加这次比赛的,是旷视研究院的MFV(Megvii-Foundation model-Video)团队。
比赛成果论文一作是吴东明,2019年在北京理工大学徐班取得学士学位,后来继续在北理攻读计算机系的博士学位,师从沈建冰教授,在2022年成为旷视研究院的研究实习生。
论文的其他作者也都来自旷视研究院,其中Chang Jiahao毕业于中国科技大,Li Zhuoling毕业于香港大学。
值得一提的是,这次挑战赛使用的PETRv2模型,还是旷视研究院创始院长孙剑博士去世前,带领研究团队发布的学术成果之一。
并且,这也不是旷视唯一的自动驾驶相关研究成果。
除了PETR系列大模型,旷视还发布过BEVDepth检测模型(可对3D目标实现高精度的深度估计),LargeKernel3D(首次证明大卷积核对3D视觉任务的可行性和必要性),BEVStereo(nuScenes纯视觉方案3D目标检测SOTA)等……都是行业领先级的技术成果。
△ BEVStereo模型框架
一直以来,旷视研究院都是旷视AI技术的研发“大脑”,主攻深度学习和计算机视觉方向,也是包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果的诞生地,已经对外发表了超过120篇全球顶会论文;斩获顶级赛事中冠军数超过40项,拥有1300余件业务相关专利授权。
而且在区别于纯研发或前沿技术预研布局的企业研究院,旷视研究院从一开始就被作为作战部队使用,所以旷视研究院的最新成果、瞄准的方向,一般都不会一时兴起,或者纯为研究而研究。
于是这也是旷视接二连三在自动驾驶、智能车赛道方向上产出顶级成果后,需要关注的地方。
相比老朋友商汤科技,旷视至今没有官宣任何智能车、自动驾驶业务或合作,而商汤则推出了专门的智能车业务品牌绝影,由联合创始人王晓刚带队,目标要成为商汤的支柱型新增长引擎。
对于智能车和自动驾驶这样的万亿规模赛道,旷视会始终心如止、按兵不动?不太可能。
更何况从技术研究能力到技术实现水平,都已经通过顶会得到了展现。
以及,旷视研究院还展示过一段自动驾驶预研Demo,仅使用7个摄像头,就能实现高速公路和城区的自动驾驶,并且还能完成水平、垂直以及侧方位停车。
这是什么水平?
作为参考,纯视觉王者特斯拉,自动驾驶感知方案最少也需要8个摄像头。
论文传送门:https://opendrivelab.com/e2ead/AD23Challenge/Track_1_MFV.pdf