影子模式无价值，没有激光雷达真值的数据集无法做智能驾驶

上图为有人拍到一辆搭载Luminar激光雷达的特斯拉Model Y，一般自动驾驶公司会用林肯MKZ混动改装做原型车，因为有AutonomouStuff公司专业改装线控车辆，显然这是特斯拉自己用的，这当然不是特斯拉要上激光雷达了，这是做数据采集的，激光雷达产生真值即Ground Truth，没有激光雷达就没有真值。

目前深度学习简单分为两种，一种是强监督学习，主要用做识别，即采集数据，标注数据，训练获得权重模型，然后再推理时导入权重模型，对目标识别分类。还有一类是还停留在学术研究的概念阶段，即端到端的深度学习，也有叫无监督学习。2018年以前丰田和英伟达在这个领域研究颇多，目前几乎完全看不到。

图片来源：互联网

上图英伟达2016年的端到端深度学习无人驾驶框架，只有一个输入，就是方向盘转角，这种方法有明显缺点，首先，这是个彻底的黑盒子，也就是没有可解释性，没有可解释性就意味无法迭代，因为你不知道为什么这个场景下表现好，那个场景下表现不好。无法迭代意味着跑多少公里，安全性舒适性都不会有提升。其次，没有真值，所谓真值就是标准答案，对这种端到端的方式来说，真值就是不出错的驾驶，而人类驾驶员是不可能做到不出错。英伟达当时也只是浅尝辄止，人类驾驶行为，包括速度和转向角，单一个转向角根本不够。

物体识别的强监督学习勉强可看做灰盒子，数据覆盖面越广，识别的类型就可能越多，而端到端是彻底的黑盒子，它知其然，不知其所以然，它只是概率预测（深度学习里最重要的置信度）。

无论是强监督学习还是端到端的深度学习，特斯拉或者说任何一家没有真值生成的车辆无论跑多少亿公里，都不会对感知能力或智能驾驶能力有丝毫提升。智能驾驶中目标分类或者说识别是深度学习的主要应用领域，但智能驾驶中，传感器不仅要识别目标，还要探测目标的边框或者叫Bounding Box。

自动驾驶则需要更高级的3D目标检测，3D目标检测需要同时实现目标定位和目标识别两项任务。其中，通过比较预测边框和Ground Truth边框的重叠程度(Intersection over Union,IoU)和阈值(e.g. 0.5)的大小判定目标定位的正确性；通过置信度分数和阈值的比较确定目标识别的正确性。

如果仅仅是识别目标，那么真值就是正确的标注（Label或Annotation），这个标注只是判断目标是哪一类物体，无论是L2还是L4，单纯识别目标毫无价值，都需要进一步探测目标信息，比如目标与自车的距离。这就需要激光雷达的真值，只有激光雷达的物理测量法才能做真值，才能做标准答案。没有激光雷达，自然就没有真值，这样的数据对L2或L4都没有多少价值。

三位年轻俊才，2008年就开始研究自动驾驶数据集

图片来源：互联网

如何构建一个智能驾驶数据集，我们以全球最权威的KITTI为例，KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办，是目前全球公认的自动驾驶领域最权威的测试数据集，也是最早的。尽管已经过去10年，但众多智能驾驶算法公司评估算法优劣无一例外都是在KITTI上打榜。

该数据集用于评测立体图像(stereo)，光流(optical flow)，视觉测距(visual odometry)，3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据，每张图像中最多达15辆车和30个行人，还有各种程度的遮挡与截断。

整个数据集由389对立体图像和光流图，39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成，以10Hz的频率采样及同步。总体上看，原始数据集被分类为‘Road’、‘City’、‘Residential’、‘Campus’和 ‘Person’。对于3D物体检测，label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成。采集车的双目摄像头基线长54厘米，车载电脑为英特尔至强的X5650 CPU，RAID5 4TB硬盘。采集时间是2011年的9月底和10月初，总共大约5天。主要内容如下：

下图为Kitti的数据采集车。

图片来源：互联网

主要传感器型号如下表：

OXTS，即Oxford TechnicalSolutions，脱胎自牛津大学，成立自1998年。RT 3003传感器就是一个中级惯性传感器，记录一个完整的三维运动和动力学轮廓与GNSS +惯性传感器融合。提供平滑、健壮和可重复的实时输出，具有低延迟。完全集成的高档MEMS IMU和RTK能力的GNSS接收器记录了一个全面的测量列表，包括位置、速度、加速度和方位。集成6 轴导弹级MEMS IMU，100 Hz刷新频率， L1/L2 RTK 精度:0.02m / 0.1◦ 即使GPS信号丢失，RT仍然能通过内部的惯性传感器来继续输出数据。可以通过轮速计等装置，校正位置漂移，在2分钟正常行驶的条件下，位置误差不会大于5米。内部的ADC转换，20bit分辨率，加速度测量的分辨率是0.12mm/s2(12 μg)。ADC转换模拟量输入，采用圆锥/划船（coning/sculling）运动补偿算法来避免信号的混淆。价格据说接近百万人民币（仅供参考，任何直接或间接引用与本文无关），目前有第三代RT3003和更高级的RT4000，频率为250Hz。国内为降低成本，采用分体，即将GNSS和IMU分离，典型的如百度的NovAtel SPAN ProPak6 GNSS接收机和 NovAtel IMU-IGM-A1。天线一般是GPS NovAtelGPS-703-GGG-HV。顺便说一句，这需要杠杆臂测量做标定，偏移量误差在1厘米之内。这一套参考价格大约25万人民币（仅供参考，任何直接或间接引用与本文无关）。

图片来源：互联网

上表为相机参数，现在最少都是400万像素起，有些是800万像素。激光雷达是64线激光雷达，想必大家已经很熟悉了，无需介绍了。

图片来源：互联网

什么需要这么多传感器和IMU？

Kitti的数据集格式

图片来源：互联网

标注文件的readme.txt文件

图片来源：互联网

该文件存储于object development kit (1 MB)文件中，readme详细介绍了子数据集的样本容量，label类别数目，文件组织格式，标注格式，评价方式等内容。从中我们可以看出IMU主要是为了保证数据的时间戳一致，建立统一的坐标系，包括全部坐标系和局部坐标系。高精尖传感器是为了提供参考数值，即Ground Truth。

图片来源：互联网

上图是通用汽车自动驾驶研发小组在2017年开发的自动真值生成系统即AGT，顺便说一下这个研发小组主要活动在以色列，如今应该并入Cruise了。上图才是真正的数据驱动型智能驾驶。

图片来源：互联网

通用的数据采集车以及与KITTI的对比，这个将64线激光雷达放在车头，显然有点危险，万一追尾，几十万美元就没了。

车辆位姿预测离不开高精度IMU。

图片来源：互联网

光流的真值对比，最糟糕的情况下，误差近60%。

图片来源：互联网

更不要说专业的数据采集系统需要百万元级人民币硬件，以及更为昂贵的数据采集软件系统。

在目前的深度学习方法中，参数的调节方法依然是一门“艺术”，而非“科学”。深度学习方法深刻地转变了人类几乎所有学科的研究方法。以前学者们所采用的观察现象、提炼规律、数学建模、模拟解析、实验检验、修正模型的研究套路被彻底颠覆，被数据科学的方法所取代：收集数据、训练网络、实验检验、加强训练。这也使得算力需求越来越高。机械定理证明验证了命题的真伪，但是无法明确地提出新的概念和方法，实质上背离了数学的真正目的。这是一种“相关性”而非“因果性”的科学。

人类的智慧来自好奇心也就是发现问题，这是机器永远无法做到的，因为它永远不可能有好奇心，所谓人工智能永远只能停留在二次元空间。