最近,实验室2020级硕士生肖桃一篇论文“Enhancing Multi-scale Representations with Transformer for Remote Sensing Image Semantic Segmentation”(作者:肖桃,刘一锟,黄玉文,李铭崧,杨公平)被IEEE Transactions on Geoscience and Remote Sensing(IEEE TGRS)录用。IEEE TGRS是地球科学和遥感领域的顶级期刊之一,是IEEE地球科学与遥感技术协会(GRSS)会刊,在遥感技术和地球科学领域具有较高影响力。中科院最新分区为1区TOP期刊,影响因子(IF)为8.125。
在高分辨率遥感图像中,语义分割是一项极具挑战性的任务,因为物体具有复杂的空间布局和巨大的外观变化。卷积神经网络(CNN)具有出色的提取局部特征的能力,并被广泛地应用于各种视觉任务的特征提取器。然而,由于卷积操作固有的归纳偏向,CNN在建模长距离依赖关系方面不可避免地存在局限性。变换器可以很好地捕捉全局表征,但遗憾的是忽略了局部特征的细节,在处理高分辨率特征图时具有很高的计算和空间复杂性。本文提出了一种用于高分辨率遥感图像语义分割的新型混合结构,以利用卷积运算和Transformer的优势来加强多尺度表征学习。具体来说,本文在Transformer中加入了可变形的自我注意机制来自动调整感受野,并相应地设计了一个编码器-解码器架构来实现高效的上下文建模。在编码器中,不同分辨率的局部特征和全局表征分别由CNN和Transformer提取,并以交互方式进行融合。此外,一个单独的空间分支被设计用来提取多尺度的上下文信息作为查询,不同尺度的特征之间的全局依赖关系由解码器有效地建立。在三个公共遥感数据集上进行的大量实验证明了EMRT的优越性,并表明本文提出方法的整体性能优于目前最先进的方法。