加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

通过特征选择和聚合实现实用的视频目标检测

08/11 08:55
1512
阅读需 5 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

论文 Practical Video Object Detection via Feature Selection and Aggregation 探讨了视频目标检测(VOD)的挑战,尤其是如何有效地跨帧聚合特征以提高检测的准确性和效率。

在3090 GPU设备上准确性(AP50)和推理速度(FPS)的性能比较。

研究背景

视频目标检测的复杂性:视频中的对象可能在不同帧之间有显著的外观变化,并且某些帧可能会出现模糊、非刚性运动或其他退化现象。这些因素使得视频目标检测比静态图像检测更加复杂。

现有方法的局限性:大多数现有的特征聚合方法主要针对两阶段检测器,这些方法虽然在精度上表现良好,但由于其双阶段特性,计算成本较高。单阶段检测器在处理静态图像方面取得了进展,但在视频目标检测中的应用尚未得到充分探索。

基础检测器YOLOX(第一行)与我们的方法(第二行)之间的比较。这些帧受到多种干扰的影响,如非刚性运动、运动模糊和复杂姿势,使得基础检测器未能完成任务。而我们的方法能够精确预测这些物体。

方法概述

我们框架的示意图。

特征选择和聚合策略:论文提出了一种简单但有效的策略,通过特征选择和聚合来提高检测精度,同时保持计算效率。

特征选择模块(FSM):该模块用于从密集预测图中提取候选特征,拒绝低质量的候选项,从而减少计算开销。具体来说,使用TopK+NMS策略来确保稀疏的前景预测。

特征聚合模块(FAM):通过特征相似性测量形成亲和矩阵,以指导特征的聚合。为了改善常用余弦相似度的不足,采用了平均池化操作。这些操作在计算资源上成本有限,但在准确性上有显著提升。

用于分类和回归特征的特征聚合过程。Sr 和 Sc 分别表示 IoU 和分类的评分矩阵。

实验与结果

实验设置:论文在ImageNet VID数据集上进行了广泛的实验,验证了所提方法的有效性。

性能提升:实验结果显示,该方法在单个3090 GPU上以超过30 FPS的速度达到了92.9%的AP50,显著优于其他现有方法。

鲁棒性测试:在处理运动模糊、罕见姿势和遮挡等挑战性场景中,所提方法表现出色,显示出其鲁棒性。通过视觉化对比,展示了在这些场景下模型的优越性能。

YOLOV-SwinBase(第一行)、YOLOV++-SwinBase(第三行)和具有相同SwinBase主干的TransVOD-Lite(第二行)之间的视觉对比。三个例子分别遭遇了不同类型的退化:(a) 运动模糊,(b) 罕见姿势,(c) 遮挡。我们的方法在这些具有挑战性的情况下展示了其鲁棒性。

贡献与创新

效率与精度的平衡:通过引入特征选择和聚合模块,论文在保持高效推理速度的同时,显著提高了检测精度。

通用性:所提方法的核心思想简单且通用,适用于不同的基础检测器,如YOLOX、FCOS和PPYOLOE。

对比分析:论文还与其他现有VOD方法进行了对比,指出大多数方法依赖于重型基础检测器,而本文的方法在效率和效果上均有优势。

相关信息

代码:https://github.com/yuhengsss/yolov

论文:https://arxiv.org/abs/2407.19650v1

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32H743XIH6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下载ECAD模型
$31.15 查看
ATXMEGA32E5-MU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 5 X 5 MM, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VHHD-2, VQFN-44

ECAD模型

下载ECAD模型
$3 查看
ATXMEGA32A4U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, LQFP-44

ECAD模型

下载ECAD模型
$13.97 查看

相关推荐

电子产业图谱