加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

LION: 用于点云中3D目标检测的线性组RNN

08/07 10:30
1585
阅读需 8 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

论文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一种名为LION(LInear grOup RNN)的基于窗口的3D目标检测框架,用于点云中的精确3D目标检测。

(a) 不同3D骨干网络在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]数据集上的检测性能比较。在这里,我们采用Mamba [22]作为LION的默认操作符。此外,我们还展示了用于实现3D骨干网络中特征交互的DSVT (b) [57]和LION (c)的简化示意图。

主要贡献

提出LION框架

    1. :LION是一种基于线性组RNN的窗口化3D骨干网络,能够实现长距离特征交互。与现有方法(如DSVT)不同,LION支持数千个体素特征在大组中相互作用,从而建立长距离关系。

LION的示意图主要包括多个LION模块,每个模块配有体素生成以增强特征,并配有体素合并以沿高度维度对特征进行下采样。(H, W, D)表示3D特征图的形状,其中H、W和D分别是3D特征图在X轴、Y轴和Z轴上的长度、宽度和高度。N是LION模块的数量。在LION中,我们首先将点云转换为体素,并将这些体素划分成一系列等大小的组。然后,我们将这些分组的特征输入LION的3D骨干网络,以增强它们的特征表示。最后,这些增强的特征被输入到BEV(鸟瞰图)骨干网和检测头中,以进行最终的3D检测。

3D空间特征描述符:引入了一个简单的3D空间特征描述符,并将其与线性组RNN集成,以弥补线性组RNN在捕捉3D局部空间信息方面的不足。该描述符包括3D子流形卷积、LayerNorm层和GELU激活函数。

新3D体素生成策略:提出了一种新的3D体素生成策略,以增强前景特征,从而在高度稀疏的点云中产生更具辨别力的特征表示。不同于以往的方法,该策略通过选择3D骨干网络中特征图的高响应区域来生成体素,并利用线性组RNN的自回归特性生成体素特征。

验证LION的泛化能力:通过不同的线性组RNN机制(如Mamba、RWKV、RetNet)验证了LION的泛化能力。

方法细节

(a) 显示了LION模块的结构,其中包括四个LION层、两个体素合并操作、两个体素扩展操作和两个3D空间特征描述符。这里,1×、1/2×和1/4×分别表示3D特征图的分辨率为(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是体素合并用于体素下采样和体素扩展用于体素上采样的过程。(c) 展示了LION层的结构。(d) 显示了3D空间特征描述符的详细信息。

线性组RNN:LION框架采用线性组RNN来处理窗口内的分组特征,以建立长距离关系。然而,线性组RNN需要顺序特征作为输入,将体素特征转换为顺序特征可能会导致空间信息的丢失(例如,两个在3D空间中非常接近的特征在1D序列中可能非常远)。为此,作者提出了一个3D空间特征描述符来装饰线性组RNN操作,从而弥补其在3D局部空间建模中的局限性。

体素生成策略:为了增强高度稀疏点云中的特征表示,提出了一种基于线性组RNN的3D体素生成策略。不同于以往的方法,该策略通过选择3D骨干网络中特征图的高响应区域来生成体素,并利用线性组RNN的自回归特性生成体素特征。

体素生成的详细过程。对于输入的体素,我们首先选择前景体素,并沿不同方向扩散它们。然后,我们将扩散体素的对应特征初始化为零,并利用后续LION模块的自回归能力生成扩散特征。请注意,为了简化说明,这里没有展示体素合并过程。

体素合并和扩展:为了使网络获得多尺度特征,LION采用了分层特征提取结构,通过体素合并和扩展操作进行特征下采样和上采样。具体来说,体素合并通过计算下采样索引映射来合并体素,而体素扩展通过相应的反向索引映射来上采样下采样的体素。

实验结果

Argoverse V2:在Argoverse V2验证集上,LION-RetNet、LION-RWKV和LION-Mamba分别达到了40.7 mAP、41.1 mAP和41.5 mAP,均超过了之前的SOTA方法SAFDNet。

ONCE:在ONCE验证集上,LION-RetNet、LION-RWKV和LION-Mamba分别达到了66.3 mAP、65.8 mAP和66.6 mAP,其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。

消融研究:通过消融研究,验证了大组大小设计、3D空间特征描述符和体素生成策略的有效性。结合所有组件后,LION的性能比基线提高了3.5 mAPH/L2。

消融研究

3D空间特征描述符的优越性:通过比较不同替代方法(如MLP和线性RNN),验证了3D空间特征描述符在捕捉局部3D空间信息方面的优越性。3D空间特征描述符使基线性能提升了1.7 mAPH/L2。

体素生成的有效性:通过比较不同的体素生成方法,验证了基于线性组RNN的体素生成策略的有效性。基于线性组RNN的体素生成策略显著优于其他方法,性能提升了0.7 mAPH/L2。

结论

LION框架通过采用线性组RNN进行大组特征交互,结合3D空间特征描述符和体素生成策略,在稀疏点云中实现了更具辨别力的特征表示。实验结果表明,LION在多个数据集上达到了SOTA性能。然而,尽管LION在长距离特征交互方面表现出色,但其运行速度仍需进一步提升,因为线性RNN在并行计算方面不如Transformer高效。

相关信息

代码:https://github.com/happinesslz/LION

论文:https://arxiv.org/abs/2407.18232v1

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MPC5554MZP132 1 Freescale Semiconductor 32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416
$80.8 查看
STM32F407VET6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$16.69 查看
MK70FX512VMJ15 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 150MHz, Graphics LCD, MAPBGA 256

ECAD模型

下载ECAD模型
$17.99 查看

相关推荐

电子产业图谱