近日,实验室2023级硕士生李文浩一篇论文“KNN Transformer with Pyramid Prompts for Few-Shot Learning”(作者:李文浩,王强昌,赵鹏,尹义龙)被CCF A类会议ACM-MM录用。ACM MM是新媒体领域的顶级会议,属于CCF A类会议。
小样本学习(Few-Shot Learning, FSL)的目标是通过有限的标注数据识别新类别。近期的研究尝试使用文本提示来调制视觉特征,以应对样本稀少的问题。然而,这些方法通常难以捕捉文本与视觉特征之间的复杂语义关系。此外,传统的自注意力机制受到图像中无用信息的严重干扰,即在交互过程中大量无关tokens的混淆,严重限制了语义先验在FSL中的潜力。为了解决上述问题,本文提出了一种结合金字塔提示的𝑘-NN Transformer模型(KTPP)用于小样本学习。KTPP 主要由𝑘-NN上下文注意力(KCA)和金字塔跨模态提示(PCP)组成。具体来说,KCA在三个级联阶段中通过从粗到细的方式逐步实现噪声过滤,并在语义信息的引导下提取辨别特征。在PCP中,通过文本和多尺度视觉特征之间的深度跨模态交互,生成金字塔提示以增强视觉特征。这使得ViT能够根据语义信息动态调整视觉特征的重要性权重,并通过金字塔结构使其对空间变化具有鲁棒性。在四个基准数据集上的大量实验表明,该模型相较于最先进的方法取得了显著的提升,尤其是在1-shot任务中,由于语义增强的视觉表示,平均提升了2.28%。