论文 StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory 提出了一种名为StreamMOS的流媒体网络,用于基于LiDAR的移动物体分割(MOS)。该方法通过多视角感知和双跨度记忆机制来解决现有方法在不同帧中对同一物体分割结果不一致的问题。
引言
背景:在城市道路上,动态物体(如车辆和行人)会增加自动驾驶车辆的碰撞风险,并对同时定位与建图(SLAM)以及障碍物规避和路径规划带来挑战。
问题:由于LiDAR点云的无序性和稀疏性,移动物体分割(MOS)任务面临挑战,尤其是在远距离稀疏点云的情况下。
现有方法:大多数现有方法通过单次推理传递时空线索,导致不同帧中对同一物体的分割结果不一致。
解决方案:提出了一种流媒体结构StreamMOS,利用短期记忆和长期记忆在多次推理中构建特征和预测的关联。
移动物体分割方法的流程对比。我们在(a)和(b)中比较了提出的StreamMOS与之前方法的结构。同时,我们的方法在(c)中获得了更好的空间完整性和时间连续性的分割结果。
相关工作
点云处理方法:Mersch等人采用稀疏4D卷积处理LiDAR扫描,并使用二元贝叶斯滤波器融合多次预测。Kreutz等人提出无监督方法解决静态LiDAR的MOS任务。Wang等人引入InsMOS,将检测和分割统一到一个网络中,以提高分割完整性。
投影方法:Chen等人将LiDAR扫描映射到球面坐标生成残差图像,提取动态信息。Sun等人设计双分支探索时空信息,并通过点精细化模块缓解边界模糊问题。Kim等人通过使用额外的语义特征提高性能。Mohapatra等人和Zhou等人利用鸟瞰图(BEV)投影获得更直观的运动表示。
方法
框架概述
StreamMOS的整体架构。(a) 特征编码器采用逐点编码器来提取点特征并将其投影到鸟瞰图(BEV)。然后,使用级联结构和不对称卷积的多视角编码器从不同视角提取运动特征。(b) 时空融合利用注意力模块将记忆特征传播到当前推理中。(c) 无参数上采样的分割解码器采用多尺度特征来预测类别标签。(d) 投票机制利用记忆预测来优化每个3D体素和实例的运动状态。
目标:基于多帧点云确定当前扫描中每个点的运动状态。
网络结构:包括多视角编码器、短期记忆、长时间记忆和投票机制。
多视角编码器:采用级联结构从RV和BEV中提取密集外观和直观运动特征。
不对称卷积:在BEV编码中引入不对称卷积,更好地捕捉垂直和水平运动。
注意力机制:实现时空融合,对齐不同时间的特征。
投票机制:在体素和实例级别统计分析长期运动状态,优化预测标签。
多视角编码器
设计:不同于以往只使用单一视角的方法,提出了多视角编码器,从RV和BEV中提取物体的运动特征。
级联结构:逐层获取密集外观和直观运动特征,确保特征的一致性。
不对称卷积:分离水平和垂直运动,提升特征提取的精度。
不对称卷积块和多视角特征的示意图。
短期时空融合
目的:将上一次推理的记忆特征传递到当前推理中,利用历史空间状态指导当前物体运动的推断。
实现:构建短期记忆库,存储历史特征,并通过注意力机制实现时空融合。
投票机制
目的:解决神经网络输出在不同帧中的不一致性问题。
方法:在体素和实例级别进行统计分析,选择最可能的状态更新原始点预测,优化分割结果。
实验
实验设置
数据集:在SemanticKITTI-MOS和Sipailou-Campus数据集上进行实验,验证方法性能。
SemanticKITTI-MOS:包含22个序列,分为训练、验证和测试集。
Sipailou-Campus:基于固态LiDAR构建,分为训练、验证和测试集。
评价指标:采用Jaccard指数或交并比(IoU)度量动态物体的MOS性能。
实现细节
数据处理:采用随机旋转、翻转和轻微平移等数据增强技术,提升模型的泛化能力。
训练策略:分两阶段训练,第一阶段训练48个epoch,使用SGD优化器,初始学习率为0.02,每10个epoch衰减0.1。
实验结果
性能对比:在SemanticKITTI(77.8%)和Sipailou Campus(92.5%)数据集上,StreamMOS表现优异,且具有实时运行能力。
速度对比:尽管使用了注意力机制和投票机制,StreamMOS仍保持了竞争性的运行时间。
SemanticKITTI验证集上的MOS结果可视化。错误预测用蓝色圆圈标出。建议放大查看彩色图。
定性分析
可视化结果:在各种场景中对比了不同方法的分割结果,StreamMOS在处理远距离物体和边界模糊问题上表现更好。
消融研究
模块重要性:通过移除关键模块(如时空融合、多视角编码器、体素投票和实例投票)进行消融实验,验证各模块的重要性。
多视角编码器:比较了不同的多视角编码策略,证明级联结构和不对称卷积的有效性。
注意力机制:比较了不同的注意力机制,验证了可变形注意力的优势。
时间窗口长度:实验表明,时间窗口长度为8时性能最佳。
其他超参数设置:探讨了帧数和BEV分辨率对性能的影响,确定了最佳设置。
结论
总结:StreamMOS通过记忆机制在多次推理中传递先验信息,捕捉多视角的完整外观和运动特征,并通过投票机制优化单次推理中的错误预测,实验结果证明了该方法在多方面的竞争力。
相关信息
代码:https://github.com/neu-real/streammos
论文:https://arxiv.org/abs/2407.17905v1