近日,TIME实验室邀请王文冠博士给全体实验室成员做报告,此次报告的题目为“Rethinking Training Paradigm and Network Design in Semantic Segmentation”。
作为计算机视觉的一项基本任务,语义分割在分割网络架构(如FCN、Transformer)的快速发展下取得了巨大的进步。现代分割方法只注重挖掘“局部 ”背景,即单个图像中像素之间的依赖关系,通过专门设计的背景聚合模块(如扩展卷积)或结构感知的优化目标(如类IoU损失)。然而,他们忽略了训练数据的“全局”背景,即不同图像的像素之间的丰富语义关系。在这次演讲中,我们将通过明确探索整个训练数据集的结构,为语义分割引入一个像素化的度量学习范式。此外,流行的分割解决方案,尽管有不同的网络设计(基于FCN或基于Transformer)和掩码解码策略(基于参数化的softmax或基于像素查询),但通过考虑softmax权重或查询向量作为可学习的类原型,可以被归入一个类别。根据这种原型观点,将讨论这种参数化分割制度的几个基本限制,并介绍一种基于不可学习原型的非参数化替代方案。
王博士目前在ETH Zurich担任Fellow Scientist,研究内容包括语义分割、视频分析、以人为中心的视觉理解等。目前已在TPAMI、TIP、TVCG、TCSVT、CVPR、ICCV、ECCV、AAAI、Siggraph Asia等期刊和会议上发表论文60余篇,包括一篇CVPR Best Paper Finalist,一篇CVPR workshop Best Paper,顶级会议Oral论文11篇。他还担任TCSVT和Neurocomputing的副主编,以及Pattern Recognition的客座编辑,谷歌学术引用达8700余次,H-index 达42。王博士曾在14项国际学术竞赛中获奖,包括Elsevier 2020年高引中国学者奖、2020年世界人工智能大会青年杰出论文奖、2019年中国人工智能学会博士论文奖、2018年ACM中国博士论文奖、2016年百度奖学金等多项荣誉。
https://sites.google.com/view/wenguanwang
1. Exploring Cross-Image Pixel Contrast for Semantic Segmentation, ICCV21, Oral
2. Rethinking Semantic Segmentation: A Prototype View, CVPR22, Oral