通过特征选择和聚合实现实用的视频目标检测

论文 Practical Video Object Detection via Feature Selection and Aggregation 探讨了视频目标检测（VOD）的挑战，尤其是如何有效地跨帧聚合特征以提高检测的准确性和效率。

在3090 GPU设备上准确性（AP50）和推理速度（FPS）的性能比较。

研究背景

视频目标检测的复杂性：视频中的对象可能在不同帧之间有显著的外观变化，并且某些帧可能会出现模糊、非刚性运动或其他退化现象。这些因素使得视频目标检测比静态图像检测更加复杂。

现有方法的局限性：大多数现有的特征聚合方法主要针对两阶段检测器，这些方法虽然在精度上表现良好，但由于其双阶段特性，计算成本较高。单阶段检测器在处理静态图像方面取得了进展，但在视频目标检测中的应用尚未得到充分探索。

基础检测器YOLOX（第一行）与我们的方法（第二行）之间的比较。这些帧受到多种干扰的影响，如非刚性运动、运动模糊和复杂姿势，使得基础检测器未能完成任务。而我们的方法能够精确预测这些物体。

方法概述

我们框架的示意图。

特征选择和聚合策略：论文提出了一种简单但有效的策略，通过特征选择和聚合来提高检测精度，同时保持计算效率。

特征选择模块（FSM）：该模块用于从密集预测图中提取候选特征，拒绝低质量的候选项，从而减少计算开销。具体来说，使用TopK+NMS策略来确保稀疏的前景预测。

特征聚合模块（FAM）：通过特征相似性测量形成亲和矩阵，以指导特征的聚合。为了改善常用余弦相似度的不足，采用了平均池化操作。这些操作在计算资源上成本有限，但在准确性上有显著提升。

用于分类和回归特征的特征聚合过程。Sr 和 Sc 分别表示 IoU 和分类的评分矩阵。

实验与结果

实验设置：论文在ImageNet VID数据集上进行了广泛的实验，验证了所提方法的有效性。

性能提升：实验结果显示，该方法在单个3090 GPU上以超过30 FPS的速度达到了92.9%的AP50，显著优于其他现有方法。

鲁棒性测试：在处理运动模糊、罕见姿势和遮挡等挑战性场景中，所提方法表现出色，显示出其鲁棒性。通过视觉化对比，展示了在这些场景下模型的优越性能。

YOLOV-SwinBase（第一行）、YOLOV++-SwinBase（第三行）和具有相同SwinBase主干的TransVOD-Lite（第二行）之间的视觉对比。三个例子分别遭遇了不同类型的退化：(a) 运动模糊，(b) 罕见姿势，(c) 遮挡。我们的方法在这些具有挑战性的情况下展示了其鲁棒性。

贡献与创新

效率与精度的平衡：通过引入特征选择和聚合模块，论文在保持高效推理速度的同时，显著提高了检测精度。

通用性：所提方法的核心思想简单且通用，适用于不同的基础检测器，如YOLOX、FCOS和PPYOLOE。

对比分析：论文还与其他现有VOD方法进行了对比，指出大多数方法依赖于重型基础检测器，而本文的方法在效率和效果上均有优势。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATMEGA328P-PU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 28DIP	ECAD模型下载ECAD模型	$3.98	查看
MK66FN2M0VLQ18R	1	NXP Semiconductors	RISC MICROCONTROLLER		$54.39	查看
STM32F427VIT6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC	ECAD模型下载ECAD模型	$22.31	查看

通过特征选择和聚合实现实用的视频目标检测

研究背景

方法概述

实验与结果

贡献与创新

推荐器件

相关推荐