利用时间因果关系进行高级时间动作检测

论文 Harnessing Temporal Causality for Advanced Temporal Action Detection 探讨了在时间动作检测（Temporal Action Detection, TAD）中利用时间因果关系的重要性，并提出了一种新颖的混合因果块（Hybrid Causal Block）来增强时间关系建模。

研究背景与动机

时间动作检测是视频理解中的一个重要任务，旨在识别视频中动作发生的时间段。现有的方法大多忽略了时间因果关系，通常对过去和未来的信息对称处理。然而，在实际场景中，动作边界通常受到因果事件的影响，利用时间因果关系可以提高动作检测的准确性。

(a) 标准的时间建模方法对过去和未来的上下文一视同仁，例如卷积、图网络和自注意力机制，忽略了动作边界变化本质上是因果事件这一事实。(b) 和 (c) 通过分别限制模型仅访问过去或未来的上下文来缓解这个问题。

主要贡献

强调时间因果关系的重要性：提出了一种混合因果块，结合了因果自注意力（causal self-attention）和因果Mamba机制，以增强时间关系建模。

实现了最先进的性能：在多个TAD数据集上取得了最先进的性能，特别是在EPIC-Kitchens和Ego4D挑战赛中排名第一。

方法论

论文提出了一种一阶段检测框架，包括特征提取和动作检测两个部分：

特征提取

视频编码器：使用预训练的动作识别模型作为视频编码器，提取语义丰富的视频特征。

视频分割：将未剪辑的视频分割成多个短片段，并使用滑动窗口方法独立提取每个片段的特征。每个视频片段可能会与其他片段重叠，具体取决于滑动窗口的步长。

空间-时间平均池化：在视频骨干网络之后应用空间-时间平均池化，以获得每个片段的密集视频特征。

动作检测

检测模型：基于ActionFormer方法，使用混合因果块替代原有的Transformer块，以增强检测性能。

优化超参数：在Ego4D-MQ和EPIC-Kitchens数据集上，优化了四个超参数：特征金字塔层数、回归损失权重、输入通道丢弃概率和训练周期数。

时间因果建模

因果Mamba块：专注于因果建模，仅考虑前面的tokens。与Transformer的全序列自注意力不同，因果Mamba块在前向和后向扫描方向上捕捉时间上下文。

混合因果块：结合了因果自注意力和因果Mamba机制，能够更好地捕捉动作转换的时间依赖性和因果关系。

混合因果块。我们将多头自注意力（MHSA）和Mamba块（SSM）结合在一起，并将它们的可见时间上下文限制为仅过去或未来的tokens，旨在捕捉长距离的时间依赖性和因果关系。前向和后向的MHSA和SSM中的参数是共享的，以减少TAD中的过拟合问题。

实验与结果

数据集与指标

数据集：在ActivityNet-1.3、THUMOS14、EPIC-Kitchens 100和Ego4D Moment Queries四个数据集上进行评估。ActivityNet-1.3和THUMOS14包含第三人称未剪辑视频，而EPIC-Kitchens和Ego4D-MQ包含第一人称视频。

评价指标：使用平均精度（mAP）在不同IoU阈值下的平均mAP作为评价指标。

性能比较

消融研究：在Ego4D-MQ数据集上进行消融研究，验证了混合因果块的有效性。通过优化检测模型的超参数，mAP从27.52%提高到29.45%。替换ActionFormer中的局部Transformer为因果注意力块后，mAP进一步提高到30.87%。最终，混合因果块在验证集上取得了32.19%的mAP，在测试集上取得了31.92%的mAP。

特征组合：使用InternVideo2特征进一步提高性能，在测试集上达到34.12%的mAP。最终，通过结合InternVideo1和InternVideo2特征，平均mAP达到34.99%，Recall@1x在tIoU=0.5时达到52.83%，在Ego4D Moment Query Challenge 2024中排名第一。

结论

论文提出的混合因果块在TAD任务中表现出色，实验结果表明其在多个数据集上具有显著的性能提升。未来的研究可以进一步探索高效的端到端训练方法，以应对大规模视频数据的挑战。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DSPIC33EP512MU810-I/PF	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100		$9.69	查看
STM32F407VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下载ECAD模型	$20.39	查看
STM8S003F3P6	1	STMicroelectronics	Mainstream Value line 8-bit MCU with 8 Kbytes Flash, 16 MHz CPU, integrated EEPROM	ECAD模型下载ECAD模型	$1.53	查看