LION: 用于点云中3D目标检测的线性组RNN

论文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一种名为LION（LInear grOup RNN）的基于窗口的3D目标检测框架，用于点云中的精确3D目标检测。

(a) 不同3D骨干网络在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]数据集上的检测性能比较。在这里，我们采用Mamba [22]作为LION的默认操作符。此外，我们还展示了用于实现3D骨干网络中特征交互的DSVT (b) [57]和LION (c)的简化示意图。

主要贡献

提出LION框架

LION的示意图主要包括多个LION模块，每个模块配有体素生成以增强特征，并配有体素合并以沿高度维度对特征进行下采样。(H, W, D)表示3D特征图的形状，其中H、W和D分别是3D特征图在X轴、Y轴和Z轴上的长度、宽度和高度。N是LION模块的数量。在LION中，我们首先将点云转换为体素，并将这些体素划分成一系列等大小的组。然后，我们将这些分组的特征输入LION的3D骨干网络，以增强它们的特征表示。最后，这些增强的特征被输入到BEV（鸟瞰图）骨干网和检测头中，以进行最终的3D检测。

3D空间特征描述符：引入了一个简单的3D空间特征描述符，并将其与线性组RNN集成，以弥补线性组RNN在捕捉3D局部空间信息方面的不足。该描述符包括3D子流形卷积、LayerNorm层和GELU激活函数。

新3D体素生成策略：提出了一种新的3D体素生成策略，以增强前景特征，从而在高度稀疏的点云中产生更具辨别力的特征表示。不同于以往的方法，该策略通过选择3D骨干网络中特征图的高响应区域来生成体素，并利用线性组RNN的自回归特性生成体素特征。

验证LION的泛化能力：通过不同的线性组RNN机制（如Mamba、RWKV、RetNet）验证了LION的泛化能力。

方法细节

(a) 显示了LION模块的结构，其中包括四个LION层、两个体素合并操作、两个体素扩展操作和两个3D空间特征描述符。这里，1×、1/2×和1/4×分别表示3D特征图的分辨率为(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是体素合并用于体素下采样和体素扩展用于体素上采样的过程。(c) 展示了LION层的结构。(d) 显示了3D空间特征描述符的详细信息。

线性组RNN：LION框架采用线性组RNN来处理窗口内的分组特征，以建立长距离关系。然而，线性组RNN需要顺序特征作为输入，将体素特征转换为顺序特征可能会导致空间信息的丢失（例如，两个在3D空间中非常接近的特征在1D序列中可能非常远）。为此，作者提出了一个3D空间特征描述符来装饰线性组RNN操作，从而弥补其在3D局部空间建模中的局限性。

体素生成策略：为了增强高度稀疏点云中的特征表示，提出了一种基于线性组RNN的3D体素生成策略。不同于以往的方法，该策略通过选择3D骨干网络中特征图的高响应区域来生成体素，并利用线性组RNN的自回归特性生成体素特征。

体素生成的详细过程。对于输入的体素，我们首先选择前景体素，并沿不同方向扩散它们。然后，我们将扩散体素的对应特征初始化为零，并利用后续LION模块的自回归能力生成扩散特征。请注意，为了简化说明，这里没有展示体素合并过程。

体素合并和扩展：为了使网络获得多尺度特征，LION采用了分层特征提取结构，通过体素合并和扩展操作进行特征下采样和上采样。具体来说，体素合并通过计算下采样索引映射来合并体素，而体素扩展通过相应的反向索引映射来上采样下采样的体素。

实验结果

Argoverse V2：在Argoverse V2验证集上，LION-RetNet、LION-RWKV和LION-Mamba分别达到了40.7 mAP、41.1 mAP和41.5 mAP，均超过了之前的SOTA方法SAFDNet。

ONCE：在ONCE验证集上，LION-RetNet、LION-RWKV和LION-Mamba分别达到了66.3 mAP、65.8 mAP和66.6 mAP，其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。

消融研究：通过消融研究，验证了大组大小设计、3D空间特征描述符和体素生成策略的有效性。结合所有组件后，LION的性能比基线提高了3.5 mAPH/L2。

消融研究

3D空间特征描述符的优越性：通过比较不同替代方法（如MLP和线性RNN），验证了3D空间特征描述符在捕捉局部3D空间信息方面的优越性。3D空间特征描述符使基线性能提升了1.7 mAPH/L2。

体素生成的有效性：通过比较不同的体素生成方法，验证了基于线性组RNN的体素生成策略的有效性。基于线性组RNN的体素生成策略显著优于其他方法，性能提升了0.7 mAPH/L2。

结论

LION框架通过采用线性组RNN进行大组特征交互，结合3D空间特征描述符和体素生成策略，在稀疏点云中实现了更具辨别力的特征表示。实验结果表明，LION在多个数据集上达到了SOTA性能。然而，尽管LION在长距离特征交互方面表现出色，但其运行速度仍需进一步提升，因为线性RNN在并行计算方面不如Transformer高效。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F207ZGT6TR	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet	ECAD模型下载ECAD模型	$13.88	查看
PIC32MX795F512L-80V/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$12	查看
PIC32MX575F512L-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下载ECAD模型	$8.67	查看

LION: 用于点云中3D目标检测的线性组RNN

主要贡献

方法细节

实验结果

消融研究

结论

推荐器件

相关推荐