近日,实验室2020级硕士生魏琦的一篇论文“Learning Sample-Aware Confidence Threshold for Semi-Supervised Learning”(作者:魏琦,冯磊,孙皓亮,王任,何润东,尹义龙)被Machine Learning Journal (MLJ) 期刊录用。MLJ是机器学习理论与算法顶级期刊,属于CCF B类期刊。
魏琦是2023届硕士毕业生,目前已赴新加坡南洋理工大学攻读博士学位,在校期间主要从事弱监督学习算法研究工作,取得一定进展,以第一作者身份在国内外顶级期刊会议CVPR (CCF-A,模式识别顶级会议)、Machine Learning (CCF-B,机器学习理论与算法顶级期刊)、ECCV (CCF-B,模式识别顶级会议)、《中国科学·信息科学》(中文CCF-A,信息领域中文顶级期刊)发表论文4篇,成果突出,已达到优秀博士毕业生的水平。
基于伪标记的方法是半监督学习(SSL)中的一类主流方法。其性能十分依赖于适当的阈值为未标记的数据生成硬标记。为此,现有研究大多需要先验知识通过人工预先设定函数来调整阈值,且存在可扩展性问题。本文提出一种新的方法Meta-Threshold (Meta-T),为每个未标记实例学习一个动态置信度阈值,并且除了元网络的学习率外不需要额外的超参数。具体来说,实例级别的置信度阈值由额外的网络以元学习的方式自动学习。将有限的标记数据作为元数据,分类器网络和元网络的整体训练目标可以建模为一个嵌套优化问题,并采用双层优化方案进行求解。此外,通过用代理函数代替伪标记中存在的指示函数,从理论上给出了本文算法训练过程的收敛性。同时,本文讨论了Meta_T训练的复杂度,并提出了一种降低其时间成本的策略。大量的实验和分析证明了该方法在典型和不平衡SSL任务上的有效性。