新闻动态

新闻动态 当前位置: 首页 >> 新闻公告 >> 新闻动态 >> 正文

祝贺TIME实验室硕士生赵鹏一篇论文被CCF A类会议ACM-MM-2023录用

发布日期:2023-07-27作者:点击:

近日,实验室2021级硕士生赵鹏一篇论文“M3R: Masked Token Mixup and Cross-Modal Reconstruction for Zero-Shot Learning”(作者:赵鹏,王强昌,尹义龙)被CCF A类会议ACM-MM录用。ACM MM是新媒体领域的顶级会议,属于CCF A类会议。

在零样本学习(ZSL)中,学习到的表示空间通常偏向于已见过的类,从而限制了预测以前未见过的类的能力。 在本文中,我们提出了用于零样本学习的 Masked token Mixup 和跨模态重建,称为 M3R,它可以显着减轻对所见类别的偏差。 M3R主要由Random Token Mixup(RTM)、Unseen Class Detection(UCD)和Hard Cross-modal Reconstruction(HCR)组成。 首先,没有对未见过的类进行适当调整的映射会导致对已见的类的偏见。 为了解决这个问题,引入 RTM 来生成各种不可见的类代理,从而扩大表示空间以覆盖未知类。 它应用于ViT中随机选择的层,产生平滑的低级和高级表示空间边界以覆盖丰富的属性。 其次,应该注意的是,RTM 生成的未见类别代理可能会与已见类别样本混合在一起。 为了克服这一挑战,UCD 旨在为不可见的类生成更大的熵值,从而区分可见的类和不可见的类。 第三,为了进一步减轻对所见类别的偏见并探索语义和视觉图像之间的关联,提出了 HCR,它可以基于少量的判别性标记和属性嵌入来重建屏蔽掉的像素。 这种方法可以使模型深入理解图像内容,并在语义属性和视觉信息之间建立强大的联系。 定性和定量结果都证明了我们提出的 M3R 模型的有效性和实用性。