论文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探讨了在时间动作检测(Temporal Action Detection, TAD)中利用时间因果关系的重要性,并提出了一种新颖的混合因果块(Hybrid Causal Block)来增强时间关系建模。
研究背景与动机
时间动作检测是视频理解中的一个重要任务,旨在识别视频中动作发生的时间段。现有的方法大多忽略了时间因果关系,通常对过去和未来的信息对称处理。然而,在实际场景中,动作边界通常受到因果事件的影响,利用时间因果关系可以提高动作检测的准确性。
(a) 标准的时间建模方法对过去和未来的上下文一视同仁,例如卷积、图网络和自注意力机制,忽略了动作边界变化本质上是因果事件这一事实。(b) 和 (c) 通过分别限制模型仅访问过去或未来的上下文来缓解这个问题。
主要贡献
强调时间因果关系的重要性:提出了一种混合因果块,结合了因果自注意力(causal self-attention)和因果Mamba机制,以增强时间关系建模。
实现了最先进的性能:在多个TAD数据集上取得了最先进的性能,特别是在EPIC-Kitchens和Ego4D挑战赛中排名第一。
方法论
论文提出了一种一阶段检测框架,包括特征提取和动作检测两个部分:
特征提取
视频编码器:使用预训练的动作识别模型作为视频编码器,提取语义丰富的视频特征。
视频分割:将未剪辑的视频分割成多个短片段,并使用滑动窗口方法独立提取每个片段的特征。每个视频片段可能会与其他片段重叠,具体取决于滑动窗口的步长。
空间-时间平均池化:在视频骨干网络之后应用空间-时间平均池化,以获得每个片段的密集视频特征。
动作检测
检测模型:基于ActionFormer方法,使用混合因果块替代原有的Transformer块,以增强检测性能。
优化超参数:在Ego4D-MQ和EPIC-Kitchens数据集上,优化了四个超参数:特征金字塔层数、回归损失权重、输入通道丢弃概率和训练周期数。
时间因果建模
因果Mamba块:专注于因果建模,仅考虑前面的tokens。与Transformer的全序列自注意力不同,因果Mamba块在前向和后向扫描方向上捕捉时间上下文。
混合因果块:结合了因果自注意力和因果Mamba机制,能够更好地捕捉动作转换的时间依赖性和因果关系。
混合因果块。我们将多头自注意力(MHSA)和Mamba块(SSM)结合在一起,并将它们的可见时间上下文限制为仅过去或未来的tokens,旨在捕捉长距离的时间依赖性和因果关系。前向和后向的MHSA和SSM中的参数是共享的,以减少TAD中的过拟合问题。
实验与结果
数据集与指标
数据集:在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四个数据集上进行评估。ActivityNet-1.3和THUMOS14包含第三人称未剪辑视频,而EPIC-Kitchens和Ego4D-MQ包含第一人称视频。
评价指标:使用平均精度(mAP)在不同IoU阈值下的平均mAP作为评价指标。
性能比较
消融研究:在Ego4D-MQ数据集上进行消融研究,验证了混合因果块的有效性。通过优化检测模型的超参数,mAP从27.52%提高到29.45%。替换ActionFormer中的局部Transformer为因果注意力块后,mAP进一步提高到30.87%。最终,混合因果块在验证集上取得了32.19%的mAP,在测试集上取得了31.92%的mAP。
特征组合:使用InternVideo2特征进一步提高性能,在测试集上达到34.12%的mAP。最终,通过结合InternVideo1和InternVideo2特征,平均mAP达到34.99%,Recall@1x在tIoU=0.5时达到52.83%,在Ego4D Moment Query Challenge 2024中排名第一。
结论
论文提出的混合因果块在TAD任务中表现出色,实验结果表明其在多个数据集上具有显著的性能提升。未来的研究可以进一步探索高效的端到端训练方法,以应对大规模视频数据的挑战。
相关信息
代码:https://github.com/sming256/OpenTAD
论文:https://arxiv.org/abs/2407.17792v2