近日,实验室2022级硕士生李兆慧一篇论文“Cascaded Cross-Modal Alignment for Visible-Infrared Person Re-Identification”(作者:李兆慧,王强昌,陈露,张欣欣,尹义龙)被中科院一区期刊Knowledge-Based Systems (KBS) 录用。KBS是人工智能领域的国际性交叉学科期刊,该期刊专注于基础知识和基于其他人工智能技术的研究,发表该领域的原创、创新和创造性成果。KBS属于中科院SCI期刊分区计算机科学类一区期刊,影响因子为7.2。
由于跨模态和模态内变化,可见光-红外行人重识别(VI-ReID)面临重大挑战。尽管现有方法从不同角度探索语义对齐,但异构数据中严重的分布偏移限制了单层次对齐方法的有效性。为了解决这个问题,本文提出了一个级联的跨模态对齐(CCA)框架,以级联的方式从三个互补的角度逐步消除分布差异并对齐语义特征。首先,在输入级,提出了通道-空间重组(CSR)策略,从通道和空间维度策略性地重组和保留关键细节,以减少模态之间的视觉差异,从而缩小输入图像中的模态差距。其次,在频率层面,引入了低频掩码(LFM)模块,通过随机掩码低频信息来强调CSR可能忽略的全局细节,从而驱动身份语义的全面对齐。第三,在部件级,设计了基于原型的语义精化(PSR)模块来细化细粒度特征,缓解LFM中无关区域的影响。它准确地对齐身体部位,并在全局判别线索的引导下,从LFM和带有姿态变化的翻转视图中增强语义一致性。在SYSU - MM01和RegDB数据集上的综合实验结果证明了本文提出的CCA的优越性。