论文 Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment 探讨了现有声音源定位方法在跨模态交互方面的不足,并提出了一种新的基准、评估指标和跨模态理解任务来解决这些问题。
现有问题
视觉偏见:现有的声音源定位基准测试存在视觉对象偏见。例如,模型可以仅依赖视觉信号实现高定位准确度,而不需要真正的音频-视觉交互。这种偏见在一些研究中被利用来提高定位准确性,但这违背了声音源定位任务的初衷。
数据集限制:现有的大规模数据集主要包含单一声音源样本,缺乏多声音源的多样性和规模,无法充分评估音频-视觉交互能力。
评估方法不足:当前的评估方法和基准测试无法充分捕捉音频和视觉信号之间的交互能力,导致模型在实际应用中的表现不佳。
我们基于对齐的声音源定位方法与之前方法的概念性区别。
主要贡献
新基准:创建了一个新的合成声音源定位基准,包含多种类别的对象及其组合和背景。每个样本包含多个声音源对象及其对应的音频,能够通过测试同一图像与不同音频对来评估音频-视觉交互。
IS3 数据集样本。每张图像都是使用左上角和右上角标示的类别名称生成的。这些类别名称是从 VGG-SS 数据集中随机匹配并获取的。通过利用扩散模型,我们可以创建一个交互式声音源定位测试集,其中包含在真实和风格化图像(如卡通或图形风格)中具有多样且罕见组合的对象。
新方法:提出了一种新的方法,通过多视角和语义相似样本的语义对齐来实现高定位性能和强跨模态语义理解。该方法结合了两种对比项:一种用于定位,另一种用于跨模态对齐。全面评估:在七个基准测试上对单一声音源、多声音源和跨数据集场景进行了广泛的实验,展示了该方法在各种任务和设置下的优越性能。
我们的声音源定位框架。我们的模型通过数据增强和最近邻搜索(语义相似样本)构建多个正样本对。通过使用这些新构建的9个样本对,我们的模型对每对样本应用空间定位 (sL) 和语义特征对齐 (sA),以学习更好的声音源定位能力。
实验结果
与现有方法的比较:
-
-
- 在VGGSound-144K、Flickr-SoundNet-144K等数据集上训练模型,并在VGG-SS和Flickr-SoundNet测试集上进行评估。结果表明,无论使用何种预训练视觉编码器,该方法都优于现有方法。使用监督预训练编码器和自监督预训练编码器的对比实验显示,监督预训练编码器在大多数情况下表现更好。例如,在VGG-SS数据集上,使用监督预训练编码器的模型在cIoU和AUC指标上分别达到了46.66和48.87,而自监督预训练编码器的模型则分别为37.81和38.39。
-
VGG-SS 和 SoundNet-Flickr 测试集的定量结果。† 表示在官方项目页面上发布的模型结果。分别用粗体和下划线表示“第一名”和“第二名”结果。
跨模态检索:在跨模态检索任务中,该方法在多个评估指标上表现出色,尤其是在没有使用预训练视觉编码器的情况下,仍能实现竞争性性能。通过对比不同k值(k-NN中的k值)的实验,发现较大的k值(如500或1000)能带来更好的性能。例如,当k值为1000时,cIoU和AUC分别达到了39.94和40.02。
交互式声音源定位:在IS3和VPO-MS数据集上,该方法在每个评估指标上均表现出显著优势,展示了其强大的跨模态对齐能力和对大域间隙的鲁棒性。例如,在IS3数据集上,该方法在Adaptive IIoU指标上比现有方法高出15.3%。
语义和多视角不变性:通过消融实验验证了语义和多视角不变性对模型性能的影响,发现两者的结合能进一步提升模型性能。实验结果显示,语义不变性比多视角不变性对性能提升的贡献更大,但两者结合效果最佳。例如,语义不变性和多视角不变性结合时,cIoU和AUC分别达到了39.94和40.02。
音频-视觉分割:虽然主要关注点不是音频-视觉分割,但在AVSBench和IS3数据集上的实验显示,该方法在分割任务中也表现出色。在AVSBench基准测试中,该方法在单一声音源(S4)和多声音源(MS3)场景下均表现优异。在IS3数据集上,该方法在cIoU和Adaptive cIoU等指标上表现出色。例如,在IS3数据集上,cIoU和Adaptive cIoU分别达到了39.94和40.02。
代码:https://github.com/kaistmm/SSLalignment
论文:https://arxiv.org/abs/2407.13676v1