近日,TIME实验室2019级硕士生秦者云一篇论文“Learning Hierarchical Embeddings for Video Instance Segmentation” (作者:秦者云,卢宪凯,聂秀山,甄先通,尹义龙)被ACM Multimedia(ACM MM)2021会议录用。ACM MM是新媒体领域的顶级会议,属于CCF A类会议。
视频实例分割(VIS)涉及对视频序列中的所有实例进行跟踪、分割和分类。现有的VIS模型大都遵循判别式的检测-跟踪范式。然而这种多阶段的策略有两点不足之处:1)它们需要在每个独立的步骤中设计和微调一个独立的模型,并且不是端到端、可训练的。这导致了一个昂贵而繁琐的解决方案。2)视频中的自然干扰,如低分辨率和运动模糊,经常导致检测器无法定位新实例。针对这些方法的不足,我们提出了自底向上、生成式的视频实例分割模型,以端到端的方式捕获视频的时空特征嵌入和外观特征嵌入。相应地,我们利用了一个简洁的混合模型来表示时空嵌入。此外,我们利用归一化流来估计潜在的外观嵌入方差。这两个嵌入学习过程被集成到一个层次贝叶斯学习框架中。通过这种方式,我们的模型在一次向前传递中就可以推断出所有的视频实例。一系列的实证研究表明,我们的算法在视频实例分割数据集(YouTube-VIS 2019)和无监督视频目标分割数据集(DAVIS 2019)上的表现明显优于目前的技术水平。这进一步验证了模型对视频中实例完整表示的泛化能力。