论文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一种名为LION(LInear grOup RNN)的基于窗口的3D目标检测框架,用于点云中的精确3D目标检测。
(a) 不同3D骨干网络在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]数据集上的检测性能比较。在这里,我们采用Mamba [22]作为LION的默认操作符。此外,我们还展示了用于实现3D骨干网络中特征交互的DSVT (b) [57]和LION (c)的简化示意图。
主要贡献
提出LION框架
-
- :LION是一种基于线性组RNN的窗口化3D骨干网络,能够实现长距离特征交互。与现有方法(如DSVT)不同,LION支持数千个体素特征在大组中相互作用,从而建立长距离关系。
LION的示意图主要包括多个LION模块,每个模块配有体素生成以增强特征,并配有体素合并以沿高度维度对特征进行下采样。(H, W, D)表示3D特征图的形状,其中H、W和D分别是3D特征图在X轴、Y轴和Z轴上的长度、宽度和高度。N是LION模块的数量。在LION中,我们首先将点云转换为体素,并将这些体素划分成一系列等大小的组。然后,我们将这些分组的特征输入LION的3D骨干网络,以增强它们的特征表示。最后,这些增强的特征被输入到BEV(鸟瞰图)骨干网和检测头中,以进行最终的3D检测。
3D空间特征描述符:引入了一个简单的3D空间特征描述符,并将其与线性组RNN集成,以弥补线性组RNN在捕捉3D局部空间信息方面的不足。该描述符包括3D子流形卷积、LayerNorm层和GELU激活函数。
新3D体素生成策略:提出了一种新的3D体素生成策略,以增强前景特征,从而在高度稀疏的点云中产生更具辨别力的特征表示。不同于以往的方法,该策略通过选择3D骨干网络中特征图的高响应区域来生成体素,并利用线性组RNN的自回归特性生成体素特征。
验证LION的泛化能力:通过不同的线性组RNN机制(如Mamba、RWKV、RetNet)验证了LION的泛化能力。
方法细节
(a) 显示了LION模块的结构,其中包括四个LION层、两个体素合并操作、两个体素扩展操作和两个3D空间特征描述符。这里,1×、1/2×和1/4×分别表示3D特征图的分辨率为(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是体素合并用于体素下采样和体素扩展用于体素上采样的过程。(c) 展示了LION层的结构。(d) 显示了3D空间特征描述符的详细信息。
线性组RNN:LION框架采用线性组RNN来处理窗口内的分组特征,以建立长距离关系。然而,线性组RNN需要顺序特征作为输入,将体素特征转换为顺序特征可能会导致空间信息的丢失(例如,两个在3D空间中非常接近的特征在1D序列中可能非常远)。为此,作者提出了一个3D空间特征描述符来装饰线性组RNN操作,从而弥补其在3D局部空间建模中的局限性。
体素生成策略:为了增强高度稀疏点云中的特征表示,提出了一种基于线性组RNN的3D体素生成策略。不同于以往的方法,该策略通过选择3D骨干网络中特征图的高响应区域来生成体素,并利用线性组RNN的自回归特性生成体素特征。
体素生成的详细过程。对于输入的体素,我们首先选择前景体素,并沿不同方向扩散它们。然后,我们将扩散体素的对应特征初始化为零,并利用后续LION模块的自回归能力生成扩散特征。请注意,为了简化说明,这里没有展示体素合并过程。
体素合并和扩展:为了使网络获得多尺度特征,LION采用了分层特征提取结构,通过体素合并和扩展操作进行特征下采样和上采样。具体来说,体素合并通过计算下采样索引映射来合并体素,而体素扩展通过相应的反向索引映射来上采样下采样的体素。
实验结果
Argoverse V2:在Argoverse V2验证集上,LION-RetNet、LION-RWKV和LION-Mamba分别达到了40.7 mAP、41.1 mAP和41.5 mAP,均超过了之前的SOTA方法SAFDNet。
ONCE:在ONCE验证集上,LION-RetNet、LION-RWKV和LION-Mamba分别达到了66.3 mAP、65.8 mAP和66.6 mAP,其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。
消融研究:通过消融研究,验证了大组大小设计、3D空间特征描述符和体素生成策略的有效性。结合所有组件后,LION的性能比基线提高了3.5 mAPH/L2。
消融研究
3D空间特征描述符的优越性:通过比较不同替代方法(如MLP和线性RNN),验证了3D空间特征描述符在捕捉局部3D空间信息方面的优越性。3D空间特征描述符使基线性能提升了1.7 mAPH/L2。
体素生成的有效性:通过比较不同的体素生成方法,验证了基于线性组RNN的体素生成策略的有效性。基于线性组RNN的体素生成策略显著优于其他方法,性能提升了0.7 mAPH/L2。
结论
LION框架通过采用线性组RNN进行大组特征交互,结合3D空间特征描述符和体素生成策略,在稀疏点云中实现了更具辨别力的特征表示。实验结果表明,LION在多个数据集上达到了SOTA性能。然而,尽管LION在长距离特征交互方面表现出色,但其运行速度仍需进一步提升,因为线性RNN在并行计算方面不如Transformer高效。
相关信息
代码:https://github.com/happinesslz/LION
论文:https://arxiv.org/abs/2407.18232v1