摘要

强化学习需要手动指定奖励函数才能学习任务。虽然原则上该奖励函数仅需要指定任务目标,但在实践中,强化学习可能非常耗时甚至不可行,除非对奖励函数进行了调整,以便产生平滑的梯度导向成功的结果。但手动调整是很难的,尤其是从原始观察结果(例如图像)获取任务时。在本文中,我们研究了如何自动学习动态距离:一种从任何其他状态到达给定目标状态的预期时间步个数的度量。这些动态距离可用于提供well-shaped奖励函数,以实现新的目标,从而有可能有效地学习复杂的任务。我们表明动态距离可以被用于半监督,其中无监督与环境的交互用于学习动态距离,而少量的偏好监督用于确定任务目标,而无需任何人工设计的奖励函数或目标示例。我们在真实机器人和仿真中都评估了我们的方法。我们展示了我们的方法可以使用原始的9自由度机械手学习阀门的转动,使用原始图像观察结果和十个偏好标签,而无需任何其他监督。

论文信息

  • 作者:Hartikainen, K., Geng, X., Haarnoja, T., & Levine, S.
  • 出处:ICLR2020 Poster
  • 机构:Oxford, UCB, DeepMind
  • 论文链接
  • 其他资料:

内容简记

方法

实验