近日,TIME实验室2021级硕士生张雪梅一篇论文“Video Corpus Moment Retrieval via Deformable Multigranularity Feature Fusion and Adversarial Training”(作者:张雪梅,赵鹏,季金胜,卢宪凯,尹义龙)被IEEE Transactions on Circuits and Systems for Video Technology (TCSVT) 期刊录用。TCSVT是人工智能与计算机视觉领域的权威期刊,CCF B类期刊,中科院一区TOP期刊,影响因子(IF)2022为8.4。
作为一项新兴任务,视频语料库时刻检索(VCMR)旨在从大量未经修剪的视频中找到与给定自然语言查询相关的视频片段。它主要包括两个子任务,根据查询文本查找最相关的视频(视频检索),以及在视频中定位与给定查询最相关的片段(时刻定位)。同时,由于视频往往包含丰富的音频、文本、图像等多模态信息,如何跨模态对视频的多模态信息和自然语言查询的文本信息进行对齐和交互是本任务的核心问题。本文提出了一种基于对抗训练的可变形多粒度特征融合(DMFAT)方法,首先将视频的字幕和帧的多模态信息输入到我们的多尺度可变形注意模块中,并通过可变形注意进行多尺度特征融合。然后,在查询的引导下,生成自适应权值来融合视频的两个多尺度模态特征。最后,通过双向关注模块获得查询和视频特征的跨模态表示,并引入对抗性对比学习目标来增强更精确的时刻定位。我们的模型在两个具有代表性的视频语料库时刻检索基准:TVR和DiDeMo上进行了评估。大量的实验证明我们的方法优于现有的方法。