加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

特斯拉为何不用激光雷达?激光雷达能避免小鹏高架桥事故么?

2022/09/13
3372
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

特斯拉不用激光雷达,还说人类单靠眼睛感知就能驾驶,无需激光雷达。特斯拉显然错了,人类是靠立体双目做感知来驾驶车辆的,并非靠特斯拉那种单目(三目本质上还是单目,拓宽了FOV而已)视觉来驾驶车辆的。马斯克还说用激光雷达注定失败。

特斯拉不用激光雷达的主要原因在于目前的算法未能发挥激光雷达的全部优势,相对视觉而言,激光雷达的优势并不明显。还有就是特斯拉的FSD芯片CPU算力不足,常见的激光雷达点云聚类算法IPC消耗CPU算力太多,对AI算力的消耗倒没有多少。

用英特尔笔记本电脑CPU十一代酷睿i7-1165G7来测试激光雷达对算力的消耗。

图片来源:互联网

i7-1165G7的CPU算力未有公开信息,不过CPU都有跑分,i7-1165G7的单核跑分是1362,多核跑分是4426,高通的第四代座舱SA8295P近似于高通 8cx Gen3, 8cx Gen3单核最高得分1010,多核最高得分5335,毕竟SA8295P是8核。SA8295P的CPU算力是200k DMIPS,i7-1165G7估计有160k DMIPS。

图片来源:互联网

采用目前公认效率最高的算法PointPillars,蓝色部分用原生代码Python实现,绿色部分用英特尔自带的OpenVINO工具加以优化。OpenVINO™ 是源自英特尔的一款功能非常全面的优秀软件工具套件,用于加速高性能计算机视觉和深度学习丰富多样的应用开发。其显著的三个特点是:高性能深度学习推理,非常易于使用的简化开发流程,一次编写可任意部署。

具体来说,OpenVINO™ 支持快速开发丰富多样的应用和解决方案,来模拟人类的视觉。其能显著提升视频分析的准确度,加速推理,并节约算力资源。该工具套件基于卷积神经网络,支持直接异构执行,可在多种英特尔芯片平台中扩展计算机视觉和深度学习的工作负载,实现卓越性能。套件中的英特尔Media SDK 支持在英特尔核芯显卡上进行高性能的视频编码和解码。OpenVINO支持多种操作系统(包括 Windows、Linux 和 macOS)和编程语言(包括 Python 和 C++)。OpenVINO免费提供超过280个经预先训练好的神经网络模型和参考代码,支持模型的量化和调优,加速深度学习的推理运算。

软件平台基于Ubuntu20.04.1,Linux内核5.8.0-43,PyTorch版本1.7.1,OpenVINO版本2021.3。激光雷达是镭神的128线机械激光雷达,每秒76万点。

图片来源:互联网

结果如上图,CPU总体使用率大约51.5%,也就是大约82k的算力,此时帧率只有10Hz,而摄像头帧率一般是30Hz,要提高帧率到30Hz,算力需求会大幅增加2-3倍,不过对于机械旋转激光雷达来说帧率越高,角分辨率就越低,一般都设置为10Hz。特斯拉FSD的CPU是12个ARM Cortex-A72内核,算力大约120k DMIPS。大部分时候CPU占用不能高于80%,否则连续工作很容易宕机。同时CPU还要处理图像感知和路径规划其他任务,留给激光雷达的不会超过40k的算力,显然是不够的。英伟达Orin顶配使用12个A78,CPU算力是250k DMIPS,尚算可以。
对于激光雷达点云信息的使用,人类实际未找到比较好的办法。

图片来源:互联网

激光雷达算法分两大类,一类是传统算法,即几何约束算法或者说是栅格占用图(简称OGM,Occupancy Grid Maps)算法,还可以叫Freespace法。这类算法源自机器人领域,用于16线以下的激光雷达,单线激光雷达都可以使用,OGM的缺点是无法应对大尺度(Scale)环境或复杂环境,应用于塞车低速状态尚可。这类算法针对的激光雷达多是4线激光雷达,非常稀疏,通常都需要立体双目配合。这就是奔驰、本田和丰田自动驾驶方案。

丰田使用自己开发的三线激光雷达。传统算法需要精通几何约束,不过这种人才通常都不擅长机器视觉,合适的人才需要自己内部培养,非常难得。只有老牌的传统车企才能完成,其手工模型需要至少5年以上才能出研究成果,而深度学习差不多每年都有大的变化。

传统算法最大的好处是将识别(分类)与探测(Detection)分开,即使遇到无法识别的目标,也能够探测目标的信息,也能够避开障碍物。缺点是研发人才稀缺,研究周期漫长,无法应对大尺度环境。传统算法只有极少数厂家还在研究,主要是日系和奔驰以及法雷奥。大部分从业人员甚至都不知道激光雷达还有传统非深度学习算法。

第二类就是深度学习算法,其最大优势是研发人员非常易得,研发非常简单,有海量的开源模型和数据集。不过由于点云非常稀疏,在稀疏的点云上应用深度学习,目前尚处在研发初期,未找到最优解。

图片来源:互联网

主流的激光雷达算法经历了三个阶段,第一阶段是PointNet,第二阶段是Voxel,第三阶段是PointPillar。

常见激光雷达算法模型的性能与消耗运算资源对比图

图片来源:互联网

mAP是Mean Average Precision的缩写,即平均AP值。作为object detection中衡量检测精度的指标。计算公式为:mAP = 所有类别的平均精度求和除以所有类别。上图中:

  • A代表AVOD,论文为Joint 3D Proposal Generation and Object Detection from View,由渥太华大学2017年底发布。M代表MV3D,论文为Multi-View 3D Object Detection Network for Autonomous Driving,由百度和清华联合于2017年发布。V为VoxelNet,即苹果在2018年发布的Voxelnet: End-to-end learning for point cloud based 3d object detection Aggregation。S为SECOND,论文为 SECOND: Sparsely embedded convolutional detection。F为Frustum PointNet,论文为 Frustum pointnets for 3d object detection from RGB-D data。P+为PIXOR++,PP就是PointPillars,效果最好。

MV3D和AVOD都是激光雷达加摄像头融合的算法,效果反而不如单一传感器

激光雷达深度学习算法分类

图片来源:互联网

PointNet是斯坦福大学于2016年提出的一种点云分类/分割深度学习框架,是开天辟地的点云深度学习框架。众所周知,点云在分类或分割时存在空间关系不规则的特点,因此不能直接将已有的图像分类分割框架套用到点云上,也因此在点云领域产生了许多基于将点云体素化(格网化)的深度学习框架,取得了很好的效果。但将点云体素化势必会改变点云数据的原始特征,造成不必要的数据损失,且额外增加了工作量,而PointNet采用了原始点云的输入方式,最大限度保留了点云的空间特征,并在最终的测试中取得了很好的效果。有多好?在KITTI三维目标检测中,F-PointNet排名第一。比激光雷达与摄像头融合的MV3D还要好。

PointNet架构

图片来源:互联网

2017年,斯坦福大学对此做了改进,提出PointNet++架构。

PointNet的缺点是它不是端到端的,处理点云需要大量手工作业,于是VoxelNet出现了,2017年苹果公司推出基于点云的3D物体检测论文"VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection"。

Voxel架构

图片来源:互联网

将三维点云划分为一定数量的Voxel,经过点的随机采样以及归一化后,对每一个非空Voxel使用若干个VFE (Voxel Feature Encoding) 层进行局部特征提取,得到Voxel-wise Feature,然后经过3D Convolutional Middle Layers进一步抽象特征(增大感受野并学习几何空间表示),最后使用RPN (Region Proposal Network)对物体进行分类检测与位置回归。

Voxel的缺点是对GPU要求太高,并且太慢,用3080这样的GPU帧率不到5Hz。Aptiv提出PointPillar。

图片来源:互联网

在 VoxelNet 当中会将所有的点云切割成一个一个Grid称为Voxel。PointPillar 也这样做,但在z轴上它不进行切割,相当于精简版本的Voxel,也可以看成 z 轴上的Voxel合成一个Pillar。这是安波福提出的算法,也是国内车厂用最多的算法,也是最贴近实战的算法,而不是试验室产品。

PointPillar少了Z轴切割,而是使用2D骨干,这导致其精度下降,性能相较于纯2D的视觉,提升并不明显。

激光雷达与摄像头融合算法演进

图片来源:互联网

只输出速度和深度的传感器融合

图片来源:互联网

产业界不会用传感器融合,因为这样做既增加成本,又增加系统复杂度,性能不仅没有提升,反而可能下降,前面的MV3D算法就是铁证。

PointPillar激光雷达算法本质上还是把点云转换成2D图像来处理,和纯视觉方式没有本质区别,只是在光线特别差的时候略有帮助,它与深度学习算法的视觉系统一样,遇到无法识别的目标就认为目标不存在(等同于背景,漏检recall),不减速撞上去,就像小鹏宁波高架桥事故怪异目标(行人与车站在一起,训练数据集无法覆盖)一样,激光雷达也会犯视觉系统的错。要解决问题,还是要用传统算法,但多线激光雷达的传统算法几乎没有人研究。这就是特斯拉不用激光雷达的原因。

特斯拉

特斯拉

Tesla 致力于通过电动汽车、太阳能产品以及适用于家庭和企业的综合型可再生能源解决方案,加速世界向可持续能源的转变。

Tesla 致力于通过电动汽车、太阳能产品以及适用于家庭和企业的综合型可再生能源解决方案,加速世界向可持续能源的转变。收起

查看更多

相关推荐

电子产业图谱

佐思汽车研究:致力于汽车、TMT、新能源(特别是新能源汽车、智能汽车、车联网)领域的产业研究、专项调研、战略规划和投资咨询服务。