摘要

学习模仿演示中的专家行为可能是富有挑战性的,特别是在高维,观察连续以及动态未知的环境中。基于behavioral cloning(BC)的有监督学习方法存在分布偏移的问题:因为智能体贪婪地模仿演示的动作,它可能会由于误差累积而偏离演示的状态。近来基于强化学习(RL)的方法,例如逆强化学习(inverse RL)和生成对抗式模仿学习(GAIL),通过训练RL智能体去匹配长时程的演示来克服这个问题。由于该任务的真正奖励函数是未知的,因此这些方法通常通过使用复杂且脆弱的近似技术来参与对抗训练,从演示中学习奖励函数。我们提出了一个简单的替代方法,该替代方法仍然使用RL,但不需要学习奖励函数。关键思想是通过鼓励智能体在遇到新的、分布之外的状态时返回到演示状态,从而激励他们在很长的时间内匹配演示。为此,我们为智能体提供了在演示状态下匹配演示操作的$r=+1$的恒定奖励,以及对所有其他行为的$r=0$的恒定奖励。我们的方法,我们称为soft Q imitation learning(SQIL),可以通过对任何标准Q-learning或off-policy actor-critic算法进行少量的修改来实现。从理论上讲,我们表明SQIL可以解释为BC利用稀疏先验来鼓励长时程模仿的正则化变体。实验上,我们在Box2D,Atari和MuJoCo中的各种基于图像的以及低维的任务上,SQIL的性能优于BC,与GAIL相比也取得了相近的结果。本文证明了基于RL且具有固定奖励的简单模仿方法与使用学到奖励的更复杂方法一样有效。

论文信息

  • 作者:Reddy, S., Dragan, A. D., & Levine, S.
  • 出处:ICLR2020(poster)
  • 机构:UCB
  • 关键词:IMITATION LEARNING, RL, SPARSE REWARDS
  • 论文链接

内容简记

方法

实验