祝贺TIME实验室硕士生王丙正一篇论文被CCF A类会议AAAI录用-山东大学机器学习与数据挖掘实验室

新闻动态

新闻动态当前位置：首页 >> 新闻公告 >> 新闻动态 >> 正文

祝贺TIME实验室硕士生王丙正一篇论文被CCF A类会议AAAI录用

发布日期:2023-12-12作者：点击：

近日，实验室2022级硕士生王丙正一篇论文“DiffAIL: Diffusion Adversarial Imitation Learning ”（作者：王丙正，吴国强，庞腾，张岩，尹义龙）被国际人工智能顶尖会议AAAI 2024录用，AAAI是中国计算机学会（CCF）推荐的人工智能领域A类会议。

模仿学习(Imitation Learning)旨在解决现实世界决策任务中奖励函数难以定义的问题。目前流行的方法是对抗性模仿学习（Adversarial Imitation Learning，AIL）框架，它的核心思想是通过匹配专家的状态-动作占用度量来获得前向强化学习的替代奖励。然而，在这套框架中，传统的鉴别器是一个简单的二元分类器，无法学习准确的分布，这可能导致无法正确识别出由策略与环境交互引起的专家级状态-动作对。为了解决这个问题，我们提出了一种名为扩散对抗模仿学习（Diffusion Adversarial Imitation Learning，DiffAIL）的方法，将扩散模型引入AIL框架中。具体而言，DiffAIL将状态-动作对建模为无条件扩散模型，并使用扩散损失作为鉴别器学习目标的一部分，从而使鉴别器能够更好地捕捉未见到的专家演示并提高泛化能力，进而提供高替代奖励函数以引导策略学习。实验结果表明，我们的方法取得了实现了最先进的性能在标准的状态-动作设置和仅状态设置下，并且在两个基准任务发现显著超过了专家演示的表现。