近日,实验室2022级硕士生王丙正一篇论文“DiffAIL: Diffusion Adversarial Imitation Learning ”(作者:王丙正,吴国强,庞腾, 张岩, 尹义龙)被国际人工智能顶尖会议AAAI 2024录用,AAAI是中国计算机学会(CCF)推荐的人工智能领域A类会议。
模仿学习(Imitation Learning)旨在解决现实世界决策任务中奖励函数难以定义的问题。目前流行的方法是对抗性模仿学习(Adversarial Imitation Learning,AIL)框架,它的核心思想是通过匹配专家的状态-动作占用度量来获得前向强化学习的替代奖励。然而,在这套框架中,传统的鉴别器是一个简单的二元分类器,无法学习准确的分布,这可能导致无法正确识别出由策略与环境交互引起的专家级状态-动作对。为了解决这个问题,我们提出了一种名为扩散对抗模仿学习(Diffusion Adversarial Imitation Learning,DiffAIL)的方法,将扩散模型引入AIL框架中。具体而言,DiffAIL将状态-动作对建模为无条件扩散模型,并使用扩散损失作为鉴别器学习目标的一部分,从而使鉴别器能够更好地捕捉未见到的专家演示并提高泛化能力,进而提供高替代奖励函数以引导策略学习。实验结果表明,我们的方法取得了实现了最先进的性能在标准的状态-动作设置和仅状态设置下,并且在两个基准任务发现显著超过了专家演示的表现。