论文 SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders 提出了一种名为SA-DVAE(Semantic Alignment via Disentangled Variational Autoencoders)的新方法,用于改进零样本骨架动作识别。
研究背景
动作识别是一个长期活跃的研究领域,具有广泛的应用,如监控、监测和人机交互。根据输入数据类型,动作识别可以分为基于图像、视频、深度和骨架的识别。本文聚焦于骨架动作识别,这种方法由于姿态估计和传感器技术的进步,成为视频动作识别的一个可行替代方案。骨架动作识别对外观和背景变化具有鲁棒性,但现有方法主要依赖于监督学习,需要大量标注数据,这既昂贵又耗时。
与现有方法的比较。我们的方法是第一个将特征解耦应用于基于骨架的零样本动作识别问题的方法。所有现有方法都直接将骨架特征与文本特征对齐,而我们的方法只将语义相关的部分骨架特征与文本特征对齐。
问题陈述
在一些情况下,训练数据难以获取或受到隐私问题的限制,零样本学习(ZSL)提供了一种替代方案,通过利用未见类的名称、属性或描述来识别未见动作。现有的骨架动作识别方法假设骨架序列捕捉良好且高度一致,主要关注如何语义优化文本表示。然而,通过对NTU RGB+D和PKU-MMD两个广泛使用的基准数据集进行仔细检查,发现这种假设是有问题的。相机位置和演员动作差异会带来显著噪声。
方法介绍
受现有ZSL方法的启发,SA-DVAE通过将骨架潜在特征空间解耦为语义相关和语义无关的两个部分来解决泛化问题。具体来说,SA-DVAE包括以下几个关键组件:
SA-DVAE的系统架构。首先,使用特征提取器来提取特征。随后,跨模态对齐模块对齐两种模态并生成语义相关的未见骨架特征(zxr)。这些生成的特征用于训练分类器。
跨模态对齐模块。该模块有两个主要任务:通过自重建构建潜在空间和通过交叉重建进行跨模态对齐。骨架特征被解耦为语义相关(zxr)和语义无关(zxv)的因素。
特征解耦:将骨架特征分解为语义相关和语义无关的部分,仅对语义相关的部分进行对齐。
对抗性总相关惩罚:通过一个对抗性鉴别器来鼓励两个解耦特征之间的独立性,减少共享信息。
实验结果
在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上进行的广泛实验表明,SA-DVAE在ZSL和广义零样本学习(GZSL)基准上达到了最先进的性能。具体结果如下:
- 在NTU RGB+D 60数据集上,SA-DVAE在GZSL协议下的准确率提高了7.25%和6.23%,在ZSL协议下提高了4.39%和1.2%。通过随机选择未见类进行多次实验,SA-DVAE在不同特征提取器的设置下也表现出色。
结论
SA-DVAE通过使用特征解耦方法将骨架数据分为语义相关和无关的两个独立表示,并通过对抗性鉴别器来增强特征解耦,显著提高了零样本和广义零样本学习的性能。
相关信息
代码:https://github.com/pha123661/SA-DVAE
论文:https://arxiv.org/abs/2407.13460v1