新闻动态

新闻动态 当前位置: 首页 >> 新闻公告 >> 新闻动态 >> 正文

祝贺TIME实验室硕士生张童一篇论文被CCF B类期刊TMM录用

发布日期:2023-08-05作者:点击:

近日,实验室2021级硕士生张童的一篇论文“Relational Network via Cascade CRF for Video Language Grounding”(作者:张童,卢宪凯,张豪,聂秀山,尹义龙,沈建冰)IEEE TRANSACTIONS ON MULTIMEDIA(TMM)期刊录用。TMM由IEEE计算机协会主办,是全球范围内计算机图像视频处理领域的权威期刊,属于CCF B类期刊,中科院一区Top期刊,影响因子(IF)2023为7.3。

视频语言定位是最具挑战性的跨模态视频理解任务之一。该任务目的是在一个未修剪的视频中定位与给定文本语意相对应的视频片段。许多现有的视频语言定位方法依赖于基于提案的框架,尽管这些基于提案的方法取得了非常好的性能,但它们通常专注于将一部分视频帧特征与文本特征进行交互以对不同的提案进行打分,当提案的特征被限制时会使模型陷入长范围的依赖关系。同时,相邻的提案共享相似的语义特征,使得视频语言定位模型难以对齐视频文本本特征,进而使得性能下降。为了解决上述问题,我们提出了 VLG-CRF,通过引入条件随机场(CRF)来处理离散并且无法区分的提案。具体来说,VLG-CRF由两个级联的CRF 组成。 AttentiveCRF 是为多模态特征融合设计的,以更好地融合时间和不同模态之间的语意关系。我们还设计了一种新的 ConvCRF 变体来捕获离散片段的关系并纠正预测分数,以使相对较高的预测分数聚集在一个集中的范围内。我们在三个商用的数据集上进行了实验并且验证了我们方法的优越性。