近日,实验室2020级博士生王任一篇论文“MetaViewer: Towards A Unified Multi-View Representation”(作者:王任,孙皓亮,马玉玲,袭肖明,尹义龙)被CVPR2023会议录用。CVPR是国际计算机视觉顶尖和权威学术会议之一,属于CCF A类会议。
多视图表示学习(Multi-view representation learning)旨在通过多个可观测视图学习实体样本的统一表示,在分类、聚类等下游任务中发挥着重要作用。大多数现有多视图表示方法遵循“特殊到一般”的学习过程,即“先编码特定视图的潜在特征,后融合到统一表示”。手工设计的融合策略(如特征拼接、加权融合等)限制了得到统一表示的质量,逐步成为多视图表示学习中的瓶颈问题。为了解决这个问题,本文从元学习的视角,提出了一种新的“一般到特殊”的多视图学习框架,其中潜在特征的融合由元学习器MetaViewer自动学习而无需手工设计的规则。MetaViewer通过观察统一表示到各个视图的重建过程学习数据相关的融合策略,这个过程本质上是一个嵌套优化问题,并最终由bi-level优化策略求解。另外,由于解耦了统一表示和特定编码的学习过程,我们“一般到特殊”的学习框架可以兼容大多数出色的损失函数和pre-text任务,进一步提升分类、聚类等下游任务上的性能。