近日,实验室硕士生王迎新的一篇论文“Attention-based Video Hashing for Large-ScaleVideo Retrieval”(作者:王迎新、聂秀山、史洋、周鑫、尹义龙)被IEEE Transactions on Cognitive and Developmental Systems录用。
论文提出了一种基于注意力机制的视频哈希检索算法,利用LSTM及注意力机制,针对视频中每一帧的重要性的不同,赋予视频帧不同的权重,以此来提高神经网络的表示能力。方法首先对视频帧进行采样,以此来降低待处理的视频帧的数量;然后通过构建视频对,即同类样本构成的视频对(正样本对)和不同类样本构成的视频对(负样本对),采用孪生网络的思想,将两个视频输入到权重共享的两路网络中,通过LSTM和注意力机制,来学习视频的特征表示。与此同时,项目组通过设计良好的损失函数,使正样本对之间的距离小,而负样本之间的距离大;通过设置正则项,提高哈希码的平衡性和不相关性,进而提高哈希码的质量。在三个公开数据集HMDB51、FCVID和UCF101上验证了该方法的有效性。