近日,TIME2020级博士生黄瑾一篇论文“Modeling Multiple Aesthetic Views for Series Photo Selection”(作者:黄瑾,宫永顺,张璐,张健,聂礼强,尹义龙)被IEEE TRANSACTIONS ON MULTIMEDIA(TMM)期刊录用。TMM由IEEE计算机协会主办,是全球范围内计算机图像视频处理领域的权威期刊,属于CCF B类期刊和JCR一区期刊。
系列照片选择是图像美学质量评估的一个重要分支,它专注于从一系列几乎相同的照片中识别出最佳图像。目前,大多数现有的SPS方法只关注从原始图像中提取特征,而忽略了图像的多个视图可以提供更详细的美学信息的事实。在本文中,我们提出了一种称为 SPSNet 的连体网络结构,通过获取图像的深度、通用和手工特征来增强多视图特征的表示学习。具体来说,我们实现了一个并行结构来提取深层和浅层特征,以交互方式融合不同分辨率下的局部和全局表示。通过具有自适应权重的自注意力模块聚合图像的多个视图,使模型能够区分每个视图的重要性。此外,我们还采用图神经网络来构建多视图特征之间的关系。我们提出的方法由孪生网络训练,可以有效地区分相似图像的细微差别,从而从一系列几乎相同的照片中选择最好的一张。在美学数据集上进行的大量实验表明,我们的方法优于其他最先进的 SPS 方法,在 Phototriage 数据集上实现了 75.36% 的准确率。此外,我们的模型在平均准确率方面比基线方法提高了 3.04%。