加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 研究背景与动机
    • 主要贡献
    • 实验与结果
    • 结论
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

利用时间因果关系进行高级时间动作检测

08/05 11:00
1616
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

论文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探讨了在时间动作检测(Temporal Action Detection, TAD)中利用时间因果关系的重要性,并提出了一种新颖的混合因果块(Hybrid Causal Block)来增强时间关系建模。

研究背景与动机

时间动作检测是视频理解中的一个重要任务,旨在识别视频中动作发生的时间段。现有的方法大多忽略了时间因果关系,通常对过去和未来的信息对称处理。然而,在实际场景中,动作边界通常受到因果事件的影响,利用时间因果关系可以提高动作检测的准确性。

(a) 标准的时间建模方法对过去和未来的上下文一视同仁,例如卷积、图网络和自注意力机制,忽略了动作边界变化本质上是因果事件这一事实。(b) 和 (c) 通过分别限制模型仅访问过去或未来的上下文来缓解这个问题。

主要贡献

强调时间因果关系的重要性:提出了一种混合因果块,结合了因果自注意力(causal self-attention)和因果Mamba机制,以增强时间关系建模。

实现了最先进的性能:在多个TAD数据集上取得了最先进的性能,特别是在EPIC-Kitchens和Ego4D挑战赛中排名第一。

方法论

论文提出了一种一阶段检测框架,包括特征提取和动作检测两个部分:

特征提取

视频编码器:使用预训练的动作识别模型作为视频编码器,提取语义丰富的视频特征。

视频分割:将未剪辑的视频分割成多个短片段,并使用滑动窗口方法独立提取每个片段的特征。每个视频片段可能会与其他片段重叠,具体取决于滑动窗口的步长。

空间-时间平均池化:在视频骨干网络之后应用空间-时间平均池化,以获得每个片段的密集视频特征。

动作检测

检测模型:基于ActionFormer方法,使用混合因果块替代原有的Transformer块,以增强检测性能。

优化超参数:在Ego4D-MQ和EPIC-Kitchens数据集上,优化了四个超参数:特征金字塔层数、回归损失权重、输入通道丢弃概率和训练周期数。

时间因果建模

因果Mamba块:专注于因果建模,仅考虑前面的tokens。与Transformer的全序列自注意力不同,因果Mamba块在前向和后向扫描方向上捕捉时间上下文。

混合因果块:结合了因果自注意力和因果Mamba机制,能够更好地捕捉动作转换的时间依赖性和因果关系。

混合因果块。我们将多头自注意力(MHSA)和Mamba块(SSM)结合在一起,并将它们的可见时间上下文限制为仅过去或未来的tokens,旨在捕捉长距离的时间依赖性和因果关系。前向和后向的MHSA和SSM中的参数是共享的,以减少TAD中的过拟合问题。

实验与结果

数据集与指标

数据集:在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四个数据集上进行评估。ActivityNet-1.3和THUMOS14包含第三人称未剪辑视频,而EPIC-Kitchens和Ego4D-MQ包含第一人称视频。

评价指标:使用平均精度(mAP)在不同IoU阈值下的平均mAP作为评价指标。

性能比较

消融研究:在Ego4D-MQ数据集上进行消融研究,验证了混合因果块的有效性。通过优化检测模型的超参数,mAP从27.52%提高到29.45%。替换ActionFormer中的局部Transformer为因果注意力块后,mAP进一步提高到30.87%。最终,混合因果块在验证集上取得了32.19%的mAP,在测试集上取得了31.92%的mAP。

特征组合:使用InternVideo2特征进一步提高性能,在测试集上达到34.12%的mAP。最终,通过结合InternVideo1和InternVideo2特征,平均mAP达到34.99%,Recall@1x在tIoU=0.5时达到52.83%,在Ego4D Moment Query Challenge 2024中排名第一。

结论

论文提出的混合因果块在TAD任务中表现出色,实验结果表明其在多个数据集上具有显著的性能提升。未来的研究可以进一步探索高效的端到端训练方法,以应对大规模视频数据的挑战。

相关信息

代码:https://github.com/sming256/OpenTAD

论文:https://arxiv.org/abs/2407.17792v2

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MK60DN512VMC10 1 Freescale Semiconductor Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121
$10.69 查看
ATXMEGA128A4U-MHR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$4.48 查看
ATTINY85-20SU 1 Microchip Technology Inc IC MCU 8BIT 8KB FLASH 8SOIC

ECAD模型

下载ECAD模型
$1.83 查看

相关推荐

电子产业图谱