摘要

自动发现时间上可扩展的动作或技能是分层强化学习的长期目标。我们提出了一种新的算法,该算法将技能链与深度神经网络相结合,可以在高维、连续域中自动发现技能。最终的算法,即deep skill chaining,通过这样的属性来构建技能,即当执行一个时使能智能体去执行另一个。(constructs skills with the property that executing one enables the agent to execute another.) 我们证明,在挑战性的连续控制任务中,deep skill chaining显着优于非分层智能体和其他最新的技能发现技术。

论文信息

  • 作者:Bagaria, A., & Konidaris, G.
  • 出处:ICLR2020 Poster
  • 机构:Brown University
  • 论文链接
  • 其他资料:

内容简记

方法

  1. 收集触发新option $o_k$的终止条件$\beta_{o_k}$的轨迹。
  2. 训练$o_k$的option policy $\pi_{o_k}$。
  3. 学习$o_k$的初始集分类器$\mathcal{I}_{o_k}$。
  4. 将$o_k$添加到智能体的option repertoire中。
  5. 创建一个新的option $o_{k+1}$,使$\beta_{o_{k+1}}=\mathcal{I}_{o_k}$。
  6. 训练option $\pi_\mathcal{O}$的policy。

实验