近日,实验室2023级硕士生李文浩一篇论文“Semantic-Aware Adaptation with Hierarchical Multimodal Prompts for Few-Shot Learning”(作者:李文浩,王强昌,Jing Li,Shengnan Zhao,Mindi Ruan,尹义龙)被ICME2025会议录用。ICME是多媒体研究领域旗舰类国际学术会议之一,属于CCF B类会议。
小样本学习(Few-Shot Learning,FSL)旨在通过少量标注样本,学习并泛化到未见样本上。现有方法在融合语言语义时缺乏细粒度跨模态交互,且对目标在图像中位置变化的适应性较差。为此,我们提出语义感知自适应(SAA)方法,结合分层多模态提示(HMP)和全局-局部自适应(GLA)模块。SAA通过视觉-语言模型CLIP编码的文本提示与可学习的视觉提示协同建模以更好地对齐文本和视觉特征分布。在视觉提取过程中,融合后的提示与视觉patch在通道和空间维度进行整合,动态地增强视觉特征,同时利用一致性损失对其进行正则化处理,以防止偏差和过拟合。HMP利用多层次的跨模态交互,增强特征的语义对齐能力和空间变化的鲁棒性。GLA则引入教师模型生成基于丰富语义的patch级软标签,进一步强调特定于类别的视觉patches,以改进token依赖性学习。在五个基准数据集上进行的广泛实验证明了SAA的优越性能。