摘要:
本文考虑了存在任务分布的元学习问题,并且我们希望获得一个从该分布中采样到以前没有见过的任务时表现良好(即快速学习)的agent。我们分析了一族用于学习参数初始化的算法,可以在新任务上进行快速微调,仅使用一阶导数进行元学习更新。该族包括并推广了一阶MAML,它是通过忽略二阶导数获得的MAML的近似值。它还包括Reptile,这是我们在此处引入的新算法,该算法通过重复采样任务,对其进行训练并将初始化朝着该任务的训练权重进行工作。我们扩展了Finn等人的结果。说明一阶元学习算法在一些公认的针对少数镜头分类的基准上表现良好,并且我们提供了旨在理解这些算法为何起作用的理论分析。