Waymo自2008年就开始研发自动驾驶,也是业内公认自动驾驶技术先行者,但在商业化道路上进展不利,只有软硬一体才是自动驾驶的出路,所以自研芯片后的Waymo或许能翻身,虽然自研芯片有点晚了。
有关Waymo的自动驾驶训练数据集(Waymo Open Dataset,简称WOD)或者说公开Benchmark有两篇论文,一篇是2020年5月的《Scalability in Perception for Autonomous Driving: Waymo Open Dataset》,另一篇是2021年4月的《Large Scale Interactive Motion Forecasting for Autonomous Driving :The WAYMO OPEN MOTION DATASET》。
WOD也分成两部分,一部分是Perception dataset,有2030个场景,目前最新版为2022年6月升级的v1.4;另一部分是Motion dataset,有目标轨迹追踪和3D同步地图,有103354个场景,目前最新版为2021年8月升级的v1.1版。
上表为Waymo 5个摄像头参数,最高只有200万像素,而Waymo声称自己的无人车用了500万像素的摄像头,并且有些媒体声称使用了14个500万像素摄像头,显然是夸张了,Waymo不会为测试数据集单独搞一套传感器配置,Waymo无人车的实际像素应该就是200万。
坐标系方面,采用右手规则。全局坐标是East-North-Up体系,车辆姿态与全局坐标系定义为4*4变换矩阵。A vehicle pose is defined as a 4x4 transform matrix from the vehicle frame to the global frame。相机坐标系方面,使用外参矩阵,即从全局(世界)坐标系到相机坐标系的变换。激光雷达使用直角坐标系。
标注方面,每一个3D物体都有7自由度的标注,包括基于中央坐标点的长宽高以及3D Box的长宽高,还有航向角。当然还有物体的ID和分类。对于鸟瞰(BEV)3D目标,设置为5自由度,不需要基于中央坐标点的长宽高。
Waymo的3D自动标签管线
感知WOD有2030个场景,分训练和评估两部分,主要在凤凰城、山景城和旧金山采集,大部分为白天,天气晴好。训练集解压缩后大小为812.7GB,验证集为204.9GB。
感知WOD分4大类,3D目标检测与追踪,2D目标检测与追踪。
单一目标的测试基准线
多目标包含追踪的测试基准线
WOD的感知测试数据集平平无奇,不过动作预测测试数据集可谓独树一帜,非常有水平。它包含103,354 segments,每个segment长度为20s,10Hz,包含object tracks和map data,这些segment又被分成9s的窗口,包括1s历史和8s未来。覆盖6个城市,1750公里的里程,570小时的驾驶时间。
对于无人驾驶来说,最难的就是预测行人或车辆的下一步轨迹,即行为预测或动作轨迹预测。这已经超越了感知那个地步,但需要良好的3D感知和轨迹追踪能力做基础,行为预测通常都使用LTSM,而不是CNN。绝大多数数据集的核心还是感知,而Waymo要更进一步。
标注系统和感知数据集一样,也是别出心裁的自动标签系统。论文为《Auto4D: Learning to Label 4D Objects from Sequential Point Clouds》所谓4D就是加了时间戳。顺便说一句,这篇论文不是Waymo的,而是Uber和多伦多大学的。
4D自动标签系统
Waymo Open Motion Dataset示例
预测评价指标有平均位移误差:Average displacement error(ADE),每个预测位置和每个真值位置之间的平均欧式距离差值。
终点位移误差(Final displacement error,简称FDE):终点预测位置和终点真值位置之间的平均欧式距离差值。
空间重叠率(Overlap Rate):总重叠数与进行多模态预测次数的比值。一个样本e对应的一次多模态预测中,最高置信度的预测里,每一个时间步step,一个对象与另一个真实情况或该预测情况的其他对象的3D边界框存在重叠,则重叠数加1。
漏检率(Miss Rate,简称MR):整个数据集在t时刻的错误比例。对于一个样本,给定t时刻,所有K个联合预测,都存在某个对象a的位置,其指示函数IsMatch(.)为0,则该时刻MR为1。
交互式interactive的成绩就更差了,显然预测目标轨迹的深度学习还有很长的路要走。
下一篇我们来解读最接近实战的数据集,安波福的nuScenes。