近日,实验室2021级硕士生张童的一篇论文“Learning Feature Semantic Matching for Spatio-Temporal Video Groundin”(作者:张童,方豪,张豪,高伽林,卢宪凯,聂秀山,尹义龙)IEEE TRANSACTIONS ON MULTIMEDIA(TMM)期刊录用。TMM由IEEE计算机协会主办,是全球范围内计算机图像视频处理领域的权威期刊,属于CCF B类期刊,中科院一区Top期刊,影响因子(IF)2023为7.3。
时空视频定位(STVG)是给定一个未修剪的视频和查询文本,从视频中找到与给定查询相对应的一系列边界框(即时空管道)。本文提出了特征语义匹配(FSM)框架。在之前方法的基础上,FSM引入了跨模态特征匹配模块,以确保视频特征和文本特征在语义上一致。该融合模块基于Transformer,通过多粒度对齐的方式来实现文本与视频特征对齐。此外,为了有效地将空间查询(边界框)与文本描述(即语言)关联起来,本文也提出了一个查询调制匹配模块,它包括Transformer解码器、管道序列匹配和误匹配纠正的的对比损失。提出的模型预测多个检测候选项,而不是使用一个查询并生成每帧一个框。然后,利用管道序列匹配来找到所有查询和真实目标最匹配的查询。考虑到不同帧之间的查询在时间上是无序的,本文进一步使用误匹配纠正的对比损失来纠正查询和文本描述之间的错误匹配。通过这种方式,提出的模型可以解决以前方法的误匹配问题,并产生与文本描述的更一致的边界框。