目前,机械旋转激光雷达的高成本是一个限制因素,但是随着基于 MEMS 的反射镜、光学相控阵等新技术的出现,价格正在下降。近期禾赛、Ouster、Innoviz 纷纷推出高性能雷达。
本文介绍了最新的汽车激光雷达技术和与这些技术一起使用的感知算法。首先分析了激光雷达系统的主要组成部分,从激光发射机到光束扫描机构。比较了各种解决方案的优缺点和现状。对于激光雷达的数据处理,回顾了模型驱动方法和新兴的深度学习解决方案。最后,对汽车激光雷达和感知系统的局限性、挑战和发展趋势做了分析。
据悉近日,Hesai 发布了新的 32 通道(也提供 16 通道版本)中档激光雷达。PandarXT 基于整合了 Hesai 自主开发的 LiDAR ASIC 的新系统架构,是一种经济高效的解决方案,专为多种应用而设计,包括无人物流,机器人,测量,安全,制图和中低速自动驾驶。
基于 Hesai 自主开发的 LiDAR ASIC 的新系统架构提供了额外的性能增强。PandarXT 的最小范围为零,即使物体直接触摸传感器的外壳,它也会输出有效的点云。它还具有毫米级的测距精度和卓越的精度。此外,其提高的反射率精度和更大的动态范围使得能够准确,一致地检测回射器,低反射率目标以及反射率突然变化的物体边界。
而成立不到五年的以色列创业公司 Innoviz 已经拥有一个称为 InnovizOne 的汽车级传感器,该传感器将于 2021 年在 BMW 上首次批量生产,他们缩小了设计规模,以保持与原始系统相似或更好的性能。
与 InnovizOne 一样,InnovizTwo 传感器具有 256 行垂直分辨率和 0.1 度角分辨率。封装尺寸小于电流传感器。对于具有 10%反射率的目标,检测范围预计将超过 200 m,其声称新型激光雷达传感器便宜 70%,计划在 2021 年第三季度开始向客户交付样品,并有望在 2023 年秋季为批量生产应用做好准备。
在自主驾驶的环境中,激光雷达是一种主动传感器,通过发射激光照亮周围环境。通过处理从反射面接收到的激光回波,可以精确测量距离。另一方面,基于激光雷达的算法也进入了快车道。对于自主车辆,激光雷达主要用于感知和定位。感知系统提供了一种机器可解释的车辆周围环境的表示。
从用户的角度来看,感知系统的输出包括三个层次的信息:
•物理描述:姿势、速度、物体形状。
•语义描述:对象的类别。
•意图预测:物体行为的可能性。
因此,激光雷达的输出用于目标检测、分类、跟踪和意图预测,对应于各个层次的信息。由于激光雷达在测距精度上的优越性,所提供的物理信息具有很高的可靠性。而激光雷达所携带的语义信息要比摄像机获得的要少,甚至更难。
在实际应用中,激光雷达和摄像机是相辅相成的:摄像机的距离估计能力差,而激光雷达对目标的识别效果不理想。精确的物理和语义信息,加上地图信息,将毫无疑问地提高意向预测。经过多年的发展,以激光雷达为中心的感知系统对于基于模型的处理算法已经趋于成熟。深度学习(DL)正在改变这个领域的学习方法。传统的基于模型的激光雷达数据处理方法具有计算友好、可解释性强等特点。而数据驱动的 DL 方法在提供语义信息方面表现出了超常的能力,这是传统方法的弱点。
图 1:Groupe RENAULT 为 EVAPS 项目开发的自主车原型。
最明显的传感器是上面的 Velodyne UltraPuck 激光雷达。
1. 激光雷达技术原理和现状分析
典型的激光雷达是用一束或几束激光扫描其视场。通过这一系统,设计了精密的光束控制系统。激光束是由一个振幅调制的半导体激光器产生的,它在近红外波段发射。激光束被环境反射回扫描仪,光电探测器接收返回信号。
快速电子过滤信号,并测量发送和接收信号之间的差,与距离成正比。基于此差异,从传感器模型中估计距离。通过信号处理,补偿了由表面材料引起的反射能量变化的差异以及发射器和接收器之间的环境状态。
激光雷达输出包括与扫描环境相对应的三维点云和与反射激光能量相对应的强度。图 2 显示了这个工作原理的概念表示。
图 2:ToF 激光测距仪的一个例子。测距仪采用直接法或相干法测量由扫描系统控制的某一方向的距离。
激光雷达系统可以分为:激光测距系统和扫描系统。激光测距仪包括通过调制波照亮目标的激光发射器;通过光学处理和光电转换后从反射光子产生电子信号的光电探测器;将发射的激光准直并将反射信号聚焦到光电探测器和信号处理电子设备,根据接收到的信号估计激光源和反射面之间的距离。扫描系统通常会以不同的方位角和垂直角控制激光束,用 i 表示,其中 i 是确定光束指向的方向的索引。
A、 激光测距原理
用激光束测量物体距离的测距仪被称为激光测距仪。它们的工作方式取决于激光束中使用的信号调制类型。脉冲激光被用来测量飞行时间(ToF),这些被称为直接探测激光测距仪。激光信号也可以是一种调频连续波(FMCV),利用多普勒效应间接测量距离和速度。这些被称为相干探测激光测距仪。
飞行时间(ToF):ToF 激光测距仪通过计算发射和接收激光之间的时差来测量距离:ToF 激光雷达以其结构简单、信号处理方法简单等优点,在目前的汽车激光雷达市场上占据主导地位。然而,由于眼睛的安全要求,增加其最大射程的潜力受到有限发射功率的限制。在 ToF 激光雷达中,返回信号可以是来自强太阳光的干扰,也可以是来自其他 ToF 激光雷达的激光束的干扰。
相干检测:通过将本机载波信号与接收信号混合,可以对接收信号进行解调,从而获得激光信号的相位和频移,从而获得距离反射面的距离和速度。这可以看作是 FMCW(调频连续波)雷达的光学版本,这是目前流行的乘用车 ADAS 系统。
图 3:相干探测原理:通过混合发射和接收的光波产生的中频(红色迹线)来估计距离。
因为 FMCW 激光雷达连续不断地使用较少的发射功率来照明物体,从而符合眼睛安全要求,并且可以使用更多的功率来扩大视野。
FMCW 激光雷达可以同时直接测量距离和速度,而对于 ToF 激光雷达,速度是通过几个连续的传感器读数间接估计得到的。通过使用 FMCW 激光信号,可以减少来自其他激光源和强光的干扰效应。然而,FMCW 激光雷达需要具有长相干距离的高质量激光发生器。
B、 激光发射和接收
激光信号的产生和发射以及反射信号的接收电子设备也反映了激光测距仪的性能和成本。
1) 激光源:ToF 激光雷达需要脉冲(调幅)激光信号。这是用脉冲激光二极管或光纤激光器产生的。半导体激光器通过向二极管的结处通电而引起激光振荡。
半导体激光器可分为两类:边缘发射激光器(EEL)和表面发射半导体激光器(VCSEL)。EEL 在电信行业的应用由来已久。VCSEL 输出圆形光束,而 EEL 发射椭圆激光束,需要额外的光束整形光学元件。
在 VCSEL 中,在单个芯片上形成二维激光阵列比 EEL 更容易,这一点很重要,因为它可以提高激光雷达的分辨率。相比之下,由于功率限制,VCSEL 的范围更短。汽车用脉冲激光二极管是一种混合型器件。
也就是说,激光芯片上安装了由 MOSFET 晶体管触发的电容器。因此,在每次栅极打开时,电容器中积累的电荷将被释放到芯片中,这将以可控的方式发射光脉冲。这些光源具有成本效益,因为它们的 905nm 输出可以通过经济高效的硅探测器检测。
然而,这些二极管的脉冲重复率有限,峰值功率较低,可能需要冷却。用于 3DFlash 激光雷达的激光二极管光源采用二极管堆叠技术,将多个边缘发射棒组装成一个垂直堆叠。散热成为一个问题,因此需要散热片以及累积超过眼睛安全要求的发射功率。
光纤激光器可以有更高的输出功率,这在工作在高波长时非常有用。它们的输出光束可以使用光纤进行分割和路由到多个传感器位置,它们具有更好的脉冲重复频率、更好的光束质量等。但是,它们可能体积庞大,从而导致难以集成到车辆中的非紧凑系统。
2) 激光波长:选择合适的激光波长应综合考虑大气窗、眼睛安全要求和成本。850-950nm(近红外)和 1550nm(短波红外)激光器因其在工业上的广泛应用而得到了广泛的应用。无论是价格低廉的二极管激光器,还是波长 850-950nm 或 1550nm 的更强大的光纤激光器,都很容易从市场上买到。
1550nm 激光的眼睛安全标准允许的最大功率高于 850-950nm 的激光,这意味着可以获得更大的射程。然而,昂贵的 InGaAs 基光电二极管需要探测 1550nm 的激光回波。InGaAs 基光电二极管的效率低于成熟的硅基光电二极管。另外,大气对 1550nm 的吸收比 850-950nm 强。因此,近红外波段(例如 905nm)的激光雷达系统仍然是主流。
3) 光电探测器:光电探测器通过光电效应将光功率转换为电能。光敏感度是描述光电探测器接收光子时的响应的最关键特性之一。光敏性取决于接收激光的波长。因此,激光雷达系统中光电探测器的选择与激光波长的选择密切相关。最常用的探测器有 PIN 光电二极管、雪崩光电二极管(APD)、单光子雪崩二极管(SPAD)、硅光电倍增管(SiPM)。
PIN 光电二极管:是由 p-i-n 结形成的一个没有移动电荷载流子的耗尽区。通过对光电二极管施加反向偏置,吸收光子将在反向偏置光电二极管中产生电流。
雪崩光电二极管(APD):是一种通过雪崩效应施加反向电压来倍增光电流的光电二极管。与 PIN 光电二极管相比,APD 倍增信号的能力降低了噪声的影响,获得了更高的内部电流增益(约 100)和信噪比。因此,apd 在当代激光雷达系统中相当普遍。硅基 apd 是敏感的通过可见光谱区直到近红外约 1000nm。InGaAs 的 apd 波长可长至 1700nm,但成本较高。
单光子雪崩二极管(SPAD):是一种 APD,设计用于在高于击穿电压(Geiger 模式)的反向偏压下工作,允许在非常短的时间内检测到极少数光子。SPAD 可以获得 106 的增益,这明显高于 APD。这一特性使 SPAD 能够在远距离探测到极弱的光。此外,可用于 SPAD 制造的 CMOS 技术使得在一个芯片上集成光电二极管阵列。这对于提高激光雷达的分辨率,同时降低成本和功耗是很有必要的。
硅光电倍增管(SiPM):基于 SPAD,同时启用光子计数。SPAD 工作的 Geiger 模式是一种光子触发模式,SPAD 无法分辨接收到的光通量的大小。为了克服这个问题,SiPM 集成了一个密集的“微电池”阵列(一对 SPAD 和一个失超电阻),它们工作相同且独立。SiPM 的输出本质上是从每个微单元检测到的光电流的组合。在这种方法中,SiPM 能够给出关于瞬时光子通量大小的信息。
C、 扫描系统
扫描系统(或光束控制系统)是为了使发射的激光能够快速探测大面积区域而设计的。现有的扫描方法通常分为机械旋压或固态扫描。
前者通常包含一个庞大的旋转镜系统,如早期自主驾驶史上的 Velodyne HDL64。后来的“固态”指的是没有运动部件的扫描系统(甚至有些仍然由微镜控制),这是汽车工业的首选。机械旋转:目前最流行的汽车激光雷达扫描解决方案是机械旋转系统,该系统通过由电机控制的旋转组件(如镜子、棱镜等)来控制激光束,从而产生大视场(FoV)。
传统上,点头镜系统和多边形镜系统是主要的应用类型。例如,如图 4(a)所示的机械旋转方案,嵌入式点头镜系统倾斜激光器以产生垂直视场。然后,旋转激光雷达基座,获得 360°水平视场。最先进的激光雷达使用多光束来减少移动机构。
图 4:按扫描方法分类的激光雷达系统。
例如,Velodyne VLP 系列使用激光二极管和光电二极管阵列来增加点云密度。与宽视场相比,机械旋压系统具有高信噪比(SNR)的优势。然而,在汽车内部这种复杂的振动环境中,旋转机构是很常见的。典型的产品示例:Velodyne 的 HDL64 如图 5(A)所示。
图 5:激光雷达产品示例:
(a)来自 Velodyne 的机械旋转 905nm 激光雷达,(b)来自 Luminar 的 1550nm MEMS 激光雷达、(c)大陆公司的 Flash 激光雷达。
MEMS 微扫描:MEMS(Micro-Electro-Mechanical Systems)技术允许使用硅制造技术制造微型机械和机电设备。从本质上讲,MEMS 反射镜是嵌入芯片上的反射镜。
MEMS 反射镜通过平衡两种相反的力来旋转:
一种是由绕在反射镜周围的导电线圈产生的电磁力(Lorentz 力),另一种是来自扭杆的弹性力(作为旋转轴)。这一原理如图 4(b)所示。MEMS 反射镜可以是一维运动的单轴,也可以是二维运动的双轴。
同时,MEMS 反射镜可以在其固有振荡频率下以谐振模式工作,从而获得大偏转角和高工作频率。在非谐振模式下,可以控制 MEMS 扫描镜,使其跟随程序化的扫描轨迹。
例如,对于基于 MEMS 的 AEYE 激光雷达,激光雷达可以动态地改变视场和扫描路径,以聚焦于某些关键部件。虽然 MEMS 激光雷达仍然包含运动部件,但由于 IC 工业中成熟的技术能够满足严格的成本要求,这种近固态技术仍然具有广阔的应用前景。Luminar 的 MEMS 1550nm 激光雷达示例如图 5(b)所示。
Flash:最初用于航天器自主着陆和与卫星对接,3DFlash 激光雷达完全移除扫描系统内的旋转部件。因此,它们是真正的固态。Flash 激光雷达的行为就像照相机。一种由光学扩散器传播以同时照亮整个场景的单个激光器。
然后,它使用一个 2D 光电二极管阵列(类似于用于照相机的 CMOS/CCD)来捕捉激光回波,最后对其进行处理以形成 3D 点云,如图 4(c)所示。由于 Flash 激光雷达的所有像素同时测量距离,避免了平台运动引起的运动补偿问题。此外,基于半导体的 3DFlash 激光雷达有助于大规模生产的制造和封装,从而降低成本。
然而,3DFlash 激光雷达的一个关键问题是它的探测范围有限(通常小于 100 米),这是因为为了保护眼睛的安全,在一个小功率阈值下,一个扩散激光就负责探测整个区域。另一个缺点是视野有限,因为它不能像扫描式激光雷达那样旋转和扫描周围环境。大陆集团用于中程感知的商用闪光激光雷达产品的典型示例如图 5 所示
光学相控阵(OPA):作为一种真正的固态激光雷达,光学相控阵(OPA)激光雷达不包含运动部件。与相控阵雷达类似,OPA 能够引导激光束通过各种类型的相位调制器。
如图 4(d)所示,当激光通过透镜时,光速可以通过光学相位调制器改变。因此,不同路径中的不同光速允许控制光波阵面形状,从而控制转向角。虽然 OPA 作为一种很有前途的技术被寄予厚望,但目前市场上还没有商业化的产品。
D、 汽车激光雷达的现状
机械旋压激光雷达是第一个进入量产车阶段的产品。2017 年,奥迪发布了最新的豪华轿车 A8,该车配备了 Valeo 的 Scala 激光雷达以实现自动驾驶功能,这是世界上第一款搭载汽车级激光雷达的商用车。
法雷奥的 scala 3 是一种 4 层机械旋转激光雷达,类似于它的表兄 IBEO Lux4。通过 Scala 的授权,A8 能够实现 L3 级别的自动驾驶功能,而不需要手放在方向盘上(需要法律允许)。2019 年,法雷奥从多家汽车制造商那里获得了下一代激光雷达 Scala2 的 5 亿订单。
同时,为了降低成本,提高系统的鲁棒性,很多公司都把目光投向了固态扫描系统。
如表一所示, Innoviz、Continental 和 Quanergy 正在分别开发 MEMS、Flash 和 OPA 激光雷达。2018 年,宝马宣布与 Innoviz 合作在 2021 年进行系列生产。为了增加最大探测距离,一些人使用了工作在单光子探测模式(盖革模式)下的 SPAD 阵列。
表一:具有代表性的激光雷达制造商和采用的技术。标有*的制造商使用单光子盖革模式 SPAD 作为光电探测器。
outster OS-1644 采用 CMOS 基 SPAD 检测 2D VCSEL 激光器阵列发射的 850nm 激光。丰田制造了一个激光雷达原型,其中包含一个用于接收 905nm 激光的 CMOSSPAD 阵列(202x96 像素)。
Princetion Lightware(收购方阿尔戈艾)还实现了 SPAD 激光雷达原型 5,同时信息披露较少。至于 SiPM,SensL(OmmniVision 收购)已经制造了一个 LiDAR 原型,而商业产品仍在开发中。
由于比近红外激光允许更高的功率阈值,一些人转而使用 SWIR 激光器(例如 1550nm),如 Luminar(宣布与丰田合作)、AEYE。基于相干探测的 FMCW 激光雷达受到汽车制造商和投资商的追捧。
Strobe 和 Blackmore 这两个具有代表性的 FMCW 激光雷达初创公司,分别很快被 Cruise 和 Aurora 收购。在本文中,我们对几家具有代表性的汽车激光雷达供应商及其公开技术进行了分类和列举。
激光雷达的另一个发展趋势是克服恶劣的天气条件,如雨、雾、雪、灰尘等。根据公式 1,不利的天气条件增加了传输损耗 Tr,并削弱了接收能量变小的物体β的反射率。由于 SWIR 激光器(如 1550nm)可以获得更高的传输功率,因此该波长的激光雷达有望在恶劣天气下具有更好的性能。
2. 激光雷达感知系统
对于自主车辆,其感知系统根据感知传感器的输出、定位和地图数据,将感知环境解释为层次化的对象描述(即物理、语义、意图感知)。
如图 6 所示,传统的 LiDAR 数据处理流水线分为 4 个步骤:目标检测、跟踪、识别和运动预测。最近兴起的深度学习技术正在改变这一经典流程,我们将在经典方法之后介绍它。由于 Velodyne 激光雷达在研究领域的普及,综述的数据处理方法主要基于这种机械旋转激光雷达。
图 6:典型的激光雷达感知系统的管道,每个步骤的输出示例。示例来自作者的平台,如图 1 所示。请注意,在目标检测后,我们只处理道路内的物体(用黄线表示)。
A、 目标检测
目标检测算法提取候选对象并估计其物理信息:被检测对象的位置和形状。由于在大多数交通场景中,目标垂直于一个平坦的地面,目标检测算法通常包括:地面滤波和聚类。地面过滤将点云标记为地面或非地面。然后,利用聚类方法将非地面点划分为不同的目标。
在早期的研究中,激光雷达的点云被投影到围绕激光雷达 360°的极坐标网格中。每个网格单元内的点被连续处理以生成一个虚拟扫描,该扫描指定了空闲、占用和遮挡的区域。占用的虚拟扫描被分组到对象簇中。
采用了这种方法,而不是对每个点进行处理,而是采用基于网格的局部平面拟合方法。将能够拟合为平面的网格划分为接地网,剩余的非接地网采用连接元件标记(CCL)进行聚类。然而,基于极坐标网格的方法往往需要将三维激光雷达点投影到离散网格中,这会丢失激光雷达测量的原始信息。
在球面坐标系(r,ψ,θ)中处理激光雷达信号提供了一种更好的方法。对于作者所用的 Velo-dyne 超光球,每束激光的垂直角是固定的,方位角由扫描时间和电机转速决定。因此,每个量程读数可以用 Pi 表示,j=(ρi,j,ɕi,θj,),其中 i 表示某一激光束,j 是方位角指数,如图 7 所示。
图 7:用于进一步处理的旋转激光雷达(Velodyne UltraPuck)的距离图。伪彩色的范围图像(32x1800)有助于以下处理。
这种方法自然地将范围读数填充到预定义的数据缓冲区(范围图像),因此允许快速访问点及其相邻点。近几年来,在距离视角下处理激光雷达数据变得越来越流行。
例如,基于一幅距离图像,对每一列中的地面点进行了分割。剩余的非地面点通过距离和角度的标准很容易地进行分组。对于 32 束激光雷达来说,在英特尔 i5 处理器中,它们达到了 4 毫秒。逐行处理范围图像。他们在每个扫描行(实际上是距离图像中的行)中应用聚类,然后逐行合并这些簇。
图 6 显示了基于距离图像的地面滤波和聚类的示例结果。绿色点是地面点,非地面点被分组到候选对象中(在蓝色多边形中)。目标检测提供初始的物理信息,例如物体的位置。以下步骤(如识别和跟踪)对检测到的对象补充语义和更多物理信息,如航向、速度。
B、 物体识别
基于机器学习的对象识别方法为检测到的对象提供语义信息(如行人、车辆、卡车、树木、建筑物等)。使用的典型识别过程包括计算紧凑对象描述符的特征提取步骤和预训练分类器基于提取的特征预测对象类别的分类步骤。
文献中提出的特征可以大致分为两类:整体对象的全局特征,或每个点的局部特征。物体的大小、半径、中心矩或最大强度是最基本的全局特征。将主成分分析(PCA)应用于三维点云是获取全局形状特征的另一种有效方法。
通过分析主成分分析得到的特征值,可以得到三个显著特征(表面性、线性性、分散性)。对于局部特征,计算了每个点及其相邻点的三个显著性特征。对三个显著性特征提取 3 个直方图,每个直方图包含 4 个间隔在 0 到 1 之间的箱子,作为局部特征。一个更复杂的特征是引入的自旋图像(SI)。
SI 是通过围绕给定点 p 的曲面法线 n 旋转网格来创建的。SI 的虚拟像素是到通过 n 的直线或到由 p 和 n 定义的平面的距离。将单个逐点特征转换为全局特征:对于一个对象,只使用其中心点的 SI 作为对象描述符。在文献中,有更复杂的特征,比如全局傅立叶直方图(GFH)描述符。然而,实时性要求限制了特征的复杂性。
特征提取后,分类是一个典型的有监督机器学习过程:由一个真实数据集训练的分类器预测输入对象的类别。著名的数据集如 kitti6 提供了丰富的资源。在机器学习(ML)的武器库中,可以应用大量的机器学习工具,如 Naive Bayes、支持向量机(SVM)、KNN、随机森林(RF)和梯度提升树(GBT)。
基于径向基函数(RBF)核的支持向量机(SVM)由于其速度快、精度高等优点,仍然是目前最流行的支持向量机方法。图 6 显示了基于我们的实现(基于 RBF 核的 SVM)对检测到的道路目标的识别结果。最近,应用证据神经网络对激光雷达目标进行分类。证据分类器可以更好地处理实践中经常遇到的未知类。
C、 目标跟踪
多目标跟踪(MOT)算法通过时空一致性来关联和定位检测 / 识别的目标。MOT 保持被探测物体的身份,并给出它们的物理状态,即轨迹、姿态、速度。
MOT 是一个经典的工程问题,已经被研究了很长时间。基本体系结构主要包括单个目标跟踪器,该跟踪器“最优”估计被跟踪对象的状态,数据关联将新的检测分配给跟踪器。
单目标跟踪器将运动建模为动态状态空间模型,并在贝叶斯滤波框架下对运动状态进行估计。Kalman Filter(KF)家族 - 高斯线性假设下的经典 KF 及其变种扩展 Kalman 滤波器(EKF),Unscented Kalman Filter(UKF),是目前流行的工具箱。
使用了一个带有恒定速度模型的 KF 来跟踪激光雷达探测。作为 KF 的一种非线性形式,EKF 被用于激光雷达目标跟踪。交互多模型(IMM)滤波器将单个动态模型扩展到多个机动模型,能够处理更复杂的情况。
IMM 滤波器由多个并行运行的滤波器组成,每个滤波器使用不同的运动模型。对于单个物体,IMM-UKF 滤波器应用,其中三个 UKF 用于三个运动模型:恒定速度、恒定转弯速率和随机运动。
作为另一种常用的方法,粒子滤波(PF)是为更一般的不满足高斯线性假设的情况而设计的。PF 在激光雷达数据处理中的应用可以追溯到 DARPA。最简单的方法是最近邻(NN)滤波器,它根据检测和轨迹之间的欧氏距离或马氏距离将检测分配给最近的轨迹。NN 滤波器对于杂波场景是不够的。
相比之下,联合概率数据关联滤波器(JPDAF)为检测航迹关联提供了一种软的、概率的方法。JPDAF 在一个选通窗口中考虑所有可能的检测(包括不检测),估计它们对轨迹的分配概率,并取所有关联假设的加权平均值。
与雷达基 MOT 相比,基于 LiDAR 的 MOT 的所有检测都被建模为点,而基于 LiDAR 的 MOT 的独特之处在于它还应该跟踪检测的形状。最简单的形状模型是一个二维边界框,它假设检测到的是类似汽车的物体。
L 形拟合是估计包围盒中心、宽度、高度和方向的最常用方法。然而,二维边界盒不足以满足更一般的物体,如行人、树木、建筑物等。一种更复杂的方法实现了多个形状模型:点、多边形、L 形和各种对象的线。在跟踪运动目标时,其形状随姿态和传感器视点的变化而变化。
D、 目标意向预测
前面介绍的模块提供检测到的目标的过去和现在的信息。而在自主驾驶系统中,决策和路径规划算法需要跟踪目标的未来运动。以往的工作基于某些运动学模型,假设是完美地拟合检测对象,不适用于长期预测。
针对这一缺点,提出了一种基于机器学习方法的机动或行为识别方法。车辆常见的操纵有切入、变道、制动、超车等。采用高斯混合模型(GMM)或隐马尔可夫模型(HMM)对汽车跟驰、变道行为进行了建模。基于 HMM 实现的机动分类,
在车辆交互模型约束下,利用变分高斯混合模型(VGMMs)预测车辆的运动。随着 RNN 在时序数据建模中的成功应用,基于 LSTM 的方法越来越流行。利用 LSTM 对交叉口驾驶员的意图进行分类,结果表明 LSTM 优于其他传统的机器学习方法。
提出了一种用于机动识别和轨迹预测的编解码 LSTM 模型。除了识别单个物体的动作外,社交 LSTM 被提出用来捕捉所有物体之间的相互作用。这是通过社会池实现的,它将目标的相邻对象的 LSTM 状态下采样为一个社会张量。应用和改进了原有的社会统筹部分,用于车辆轨迹预测。
E、 新兴的深度学习方法
在计算机视觉和语音识别取得巨大成功之后,激光雷达数据处理也迎来了深度学习的浪潮。深度学习是机器学习算法的一个子集,主要使用多层神经网络。
与支持向量机等传统的机器学习方法相比,DL 技术能够从原始输入中自动提取特征。卷积神经网络(CNN)和递归神经网络(RNN),如 LSTM(long-short-term memory)是最常用的工具。
感知系统的基本组成部分、地面分割、目标检测、跟踪和识别都可以通过深度神经网络(DNN)来实现。例如,通过将 CNN 应用于由多通道距离图像表示的 LiDAR 点来分割地面点。
与基于聚类的可检测任意目标的目标检测方法不同,基于 DNN 的解决方案基于有监督学习的模式,通过识别来实现目标检测。车辆可以通过基于 CNN 的神经网络在激光雷达点的 BEV(鸟瞰图)表示中检测到。
一种更为复杂的神经网络,将 CNN 用于激光雷达数据的距离像和 BEV,然后与摄像机检测进行融合。然而,由于激光雷达的物理局限性,激光雷达只能对车辆进行有效的检测,KITTI benchmark 中行人检测的最佳结果平均精度仅为 52.40%(在本文写作时采用的方法是不可信的)。
将证据理论集成到基于激光雷达的道路分割和制图的 DL 体系结构中。利用 DL 实现了目标跟踪。与传统跟踪算法中描述的滤波跟踪框架不同,提出了一种检测跟踪框架下的深层结构模型。
检测网首先处理一系列的激光雷达数据和图像以生成检测方案。然后,通过寻找最佳检测关联来估计轨迹,并通过行军网和计分网实现。
除了改进传统的感知成分外,点式语义切分在以前很难实现,现在可以通过深度学习来实现。提出了一种通用的三维点云语义分割方法点网。然而,由于激光雷达数据 w.r.t 距离的稀疏性,该方法不能很好地应用于自动驾驶场景。
squezeseg 将 CNN 应用于激光雷达点的距离视图中,实现了实时分割。由于缺少大量带注释的数据集,这两种方法的性能还不能在实际使用中部署。虽然这种情况已经被 semantickitti8 所改变,Semantickitti8 是基于 KITTI 的最新也是最大的逐点注释数据集。
基于这个数据集,RangeNet 通过一个并不复杂的 DNN 结构展示了令人着迷的性能和速度。图 8 示出了 RangeNet 的结构和示例结果。随着越来越多的标注数据集,我们有充分的理由期待基于 LiDAR 的语义分割将有更好的性能。
图 8:RangeNet 中提出的神经网络结构
3. 结论与未来方向
本文首先对激光雷达技术进行了综述。介绍了激光雷达如何“看到”世界和什么构成了激光雷达。分析了激光雷达技术的主要发展方向。综上所述,目前的汽车激光雷达面临着以下限制或挑战:
1)成本;
2)满足汽车可靠性和安全标准(如 ISO26262、IEC61508);
3)测量距离长(如公路应用>200m);
4)恶劣天气,如雨、雾、雪等;
5)图像级分辨率;
6)尺寸较小,便于集成。目前,各种可能的解决方案,从激光源(905nm V.S.1550nm)、扫描方法(自旋 /MEMS/OPA/Flash)或测距原理(ToF 或 FMCW)都被用来克服这些困难。
很难预测哪种汽车激光雷达解决方案将主导未来,但有一点是肯定的:汽车激光雷达正在走出实验平台,进入越来越多的量产汽车。
然后,介绍了基于激光雷达的自动驾驶感知系统的简明教程。介绍了感知系统提供的三个层次的信息,以及典型的处理流程。一般来说,与摄像机或雷达相比,激光雷达是测量距离最精确的传感器。
因此,由基于激光雷达的算法评估的物理信息(物体的位置、方向、形状等)是非常可靠的。然而,语义描述是激光雷达的缺点。这是由于激光雷达的分辨率低,其本质是作为一个距离测量传感器,而不是上下文传感器。与摄像机的融合弥补了激光雷达在识别方面的不足。
意图预测水平独立于特定的传感器,而激光雷达所带来的精确物理信息将增强其预测能力。将深度学习应用于激光雷达的三维数据将是未来研究的重要方向之一。缺乏大量的三维点云数据集是深度学习方法成功应用的瓶颈。随着新型激光雷达的快速发展,将出现更加适用于特定激光雷达的新算法。