近日,实验室2022级硕士生郑晓一篇论文“Point Cloud Pre-training with Diffusion Models”(作者:郑晓,黄小水,梅国锋,侯跃南,吕照阳,戴勃,欧阳万里, 宫永顺)被CVPR2024会议录用。CVPR是国际计算机视觉顶尖和权威学术会议之一,属于CCF A类会议。
预训练一个模型,然后在下游任务中进行微调,在2D图像和NLP领域已经取得了巨大的成功。然而,由于点云固有的无序和密度不均的特性,探索点云的先验知识以及预训练点云backbone并非易事。为此,本文提出了一种全新的预训练方法PointDif,将点云预训练任务看作是有条件的点对点的点云生成问题,并提出了条件点生成器(conditional point generator)。该生成器聚合了backbone提取的特征,并将聚合后的特征作为条件来引导扩散模型逐点的从噪声点云进行恢复,从而帮助backbone同时捕获局部和全局的几何先验以及物体的整体点密度分布。本文还提出了一种周期均匀采样优化策略,使模型能够均匀的从各级噪声点云中进行恢复,并从balanced supervision中学习。PointDif在各种真实数据集的各种下游任务(如分类、分割和检测)中都取得了显著的提升。具体来说,PointDif在S3DIS Area 5的分割任务上达到了70.0%的mIoU;同时相较于TAP,在ScanObjectNN上的分类任务中获得了2.4%的平均提升。此外,该预训练框架也可以灵活的应用于各种点云backbone并展现出良好的性能。