摘要:

元强化学习算法可以通过利用先前的经验来学习如何学习,从而使机器人更快地掌握新技能。但是,当前有关元强化学习的许多研究都集中在非常狭窄的任务分布上。例如,一个常用的元强化学习基准将模拟机器人的不同的运行速度作为不同的任务。当在这样狭窄的任务分布上进行策略的元训练时,它们可能无法泛化到更快地获取全新的任务。因此,如果这些方法的目的是能够更快地获取全新的行为,则我们必须在足够广泛的任务分布上评估它们,以使其能够推广到新的行为。在本文中,我们提出了一种用于元强化学习和多任务学习的开源模拟benchmark,该benchmark包含50个不同的机器人操纵任务。我们的目标是使开发用于加速获取全新的、可执行的任务的算法成为可能。我们针对这些任务评估了6种最新的元强化学习和多任务学习算法。令人惊讶的是,尽管每项任务及其变体(例如,不同的对象位置)都可以合理地成功学习,但是这些算法难以同时学习多个任务,即使只有十个不同的训练任务也是如此。我们的分析和开源环境为将来的多任务学习和元学习研究铺平了道路,这些研究可以实现有意义的泛化,从而释放这些方法的全部潜力。

benchmark任务的视频在项目页面上:meta-world.github.io。我们的开源代码可在以下网址获得:https://github.com/rlworkgroup/metaworld