近日,实验室2020级博士生王任一篇论文“SeqMvRL: A Sequential Fusion Framework for Multi-view Representation Learning”(作者:王任,孙皓亮,林毓秀,左川徽,尹义龙,孟文佳)被CVPR2025会议录用。CVPR是国际计算机视觉顶尖和权威学术会议之一,属于CCF A类会议。
多视图表示学习将一个实体的多个可观测视图整合为统一表示,以促进下游任务的执行。目前的方法主要关注识别各视图间的兼容成分,并通过单步并行融合进行整合。然而,这种并行融合本质上是静态的,忽略了视图之间可能存在的冲突,从而削弱了表示能力。为了解决这一问题,本文提出了一种新颖的序列式融合框架用于多视图表示学习(SeqMvRL)。具体而言,我们将多视图融合建模为一个顺序决策问题,并构建了成对集成器(PI)和下一视图选择器(NVS),分别对应强化学习中的环境和智能体。PI 负责将当前融合的特征与选定视图进行整合,而 NVS 用于确定下一个应当融合的视图。SeqMvRL 通过根据当前融合状态自适应地选择最优的下一视图进行融合,从而有效减少冲突并提升统一表示的质量。此外,我们精心设计了一种新颖的奖励函数,鼓励模型优先选择能够提升融合特征可辨别性的视图。实验结果表明,在分类和聚类任务中,SeqMvRL 优于并行融合方法。