NIPS2020 Reinforcement Learning Reading List

NIPS2020论文中关于强化学习的论文列表，大部分应都有收录，如有缺漏，感谢指正。

*标注的为值得精读论文

Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement. [论文链接]
- 作者: Ben Eysenbach (Carnegie Mellon University) · XINYANG GENG (UC Berkeley) · Sergey Levine (UC Berkeley) · Russ Salakhutdinov (Carnegie Mellon University)
- 多任务强化学习（RL）旨在学习同时解决许多任务的策略。一些先前的工作发现，使用不同的奖励函数重新标记过去的经验可以提高样本效率。重新标记方法通常会问：事后看来，如果我们假设我们的经验对于某些任务是最佳的，那么对于哪个任务最佳？在本文中，我们证明事后重新标记是逆RL，这一发现表明我们可以将逆RL与RL算法串联使用，来有效解决许多任务。我们使用这个想法来泛化目标重新标记技术，从先前的工作到任意类别的任务。我们的实验证实，使用逆RL重新标记数据可加快通用多任务设置中的学习速度，其中包括达成目标，具有离散奖励集的域以及具有线性奖励函数的域。
Generalised Bayesian Filtering via Sequential Monte Carlo. [论文链接]
- 作者: Ayman Boustati (University of Warwick) · Omer Deniz Akyildiz (University of Warwick) · Theodoros Damoulas (University of Warwick & The Alan Turing Institute) · Adam Johansen (University of Warwick)
Softmax Deep Double Deterministic Policy Gradients. [论文链接]
- 作者: Ling Pan (Tsinghua University) · Qingpeng Cai (Alibaba Group) · Longbo Huang (IIIS, Tsinghua Univeristy)
Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model. [论文链接]
- 作者: Gen Li (Tsinghua University) · Yuting Wei (Carnegie Mellon University) · Yuejie Chi (CMU) · Yuantao Gu (Tsinghua University) · Yuxin Chen (Princeton University)
Learning Multi-Agent Coordination for Enhancing Target Coverage in Directional Sensor Networks. [论文链接]
- 作者: Jing Xu (Peking University) · Fangwei Zhong (Peking University) · Yizhou Wang (Peking University)
Off-Policy Imitation Learning from Observations. [论文链接]
- 作者: Zhuangdi Zhu (Michigan State University) · Kaixiang Lin (Michigan State University) · Bo Dai (Google Brain) · Jiayu Zhou (Michigan State University)
Can Q-Learning with Graph Networks Learn a Generalizable Branching Heuristic for a SAT Solver?. [论文链接]
- 作者: Vitaly Kurin (University of Oxford) · Saad Godil (NVIDIA) · Shimon Whiteson (University of Oxford) · Bryan Catanzaro (NVIDIA)
DISK: Learning local features with policy gradient. [论文链接]
- 作者: MichaÅ‚ Tyszkiewicz (EPFL) · Pascal Fua (EPFL, Switzerland) · Eduard Trulls (Google)
Learning Individually Inferred Communication for Multi-Agent Cooperation. [论文链接]
- 作者: Ziluo Ding (Peking University) · Tiejun Huang (Peking University) · Zongqing Lu (Peking University)
Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting. [论文链接]
- 作者: Jorge Mendez (University of Pennsylvania) · Boyu Wang (University of Western Ontario) · Eric Eaton (University of Pennsylvania)
Fixed-Support Wasserstein Barycenters: Computational Hardness and Fast Algorithm. [论文链接]
- 作者: Tianyi Lin (UC Berkeley) · Nhat Ho (University of Texas at Austin) · Xi Chen (New York University) · Marco Cuturi (Google Brain & CREST - ENSAE) · Michael Jordan (UC Berkeley)
Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards. [论文链接]
- 作者: Yijie Guo (University of Michigan) · Jongwook Choi (University of Michigan) · Marcin Moczulski (Google Brain) · Shengyu Feng (University of Illinois Urbana Champaign) · Samy Bengio (Google Research, Brain Team) · Mohammad Norouzi (Google Brain) · Honglak Lee (Google / U. Michigan)
Almost Optimal Model-Free Reinforcement Learningvia Reference-Advantage Decomposition. [论文链接]
- 作者: Zihan Zhang (Tsinghua University) · Yuan Zhou (UIUC) · Xiangyang Ji (Tsinghua University)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping. [论文链接]
- 作者: Yujing Hu (NetEase Fuxi AI Lab) · Weixun Wang (Tianjin University) · Hangtian Jia (Netease Fuxi AI Lab) · Yixiang Wang (University of Science and Technology of China) · Yingfeng Chen (NetEase Fuxi AI Lab) · Jianye Hao (Tianjin University) · Feng Wu (University of Science and Technology of China) · Changjie Fan (NetEase Fuxi AI Lab)
Effective Diversity in Population Based Reinforcement Learning. [论文链接]
- 作者: Jack Parker-Holder (University of Oxford) · Aldo Pacchiano (UC Berkeley) · Krzysztof M Choromanski (Google Brain Robotics) · Stephen J Roberts (University of Oxford)
A Boolean Task Algebra for Reinforcement Learning. [论文链接]
- 作者: Geraud Nangue Tasse (University of the Witwatersrand) · Steven James (University of the Witwatersrand) · Benjamin Rosman (University of the Witwatersrand / CSIR)
A new convergent variant of Q-learning with linear function approximation. [论文链接]
- 作者: Diogo Carvalho (GAIPS, INESC-ID) · Francisco S. Melo (IST/INESC-ID) · Pedro A. Santos (Instituto Superior TÃ©cnico)
Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control. [论文链接]
- 作者: Zhiyuan Xu (Syracuse University) · Kun Wu (Syracuse University) · Zhengping Che (DiDi AI Labs, Didi Chuxing) · Jian Tang (DiDi AI Labs, DiDi Chuxing) · Jieping Ye (Didi Chuxing)
Multi-task Batch Reinforcement Learning with Metric Learning. [论文链接]
- 作者: Jiachen Li (University of California, San Diego) · Quan Vuong (University of California San Diego) · Shuang Liu (University of California, San Diego) · Minghua Liu (UCSD) · Kamil Ciosek (Microsoft) · Henrik Christensen (UC San Diego) · Hao Su (UCSD)
Demystifying Orthogonal Monte Carlo and Beyond. [论文链接]
- 作者: Han Lin (Columbia University) · Haoxian Chen (Columbia University) · Krzysztof M Choromanski (Google Brain Robotics) · Tianyi Zhang (Columbia University) · Clement Laroche (Columbia University)
On the Stability and Convergence of Robust Adversarial Reinforcement Learning: A Case Study on Linear Quadratic Systems. [论文链接]
- 作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Bin Hu (University of Illinois at Urbana-Champaign) · Tamer Basar (University of Illinois at Urbana-Champaign)
Towards Playing Full MOBA Games with Deep Reinforcement Learning. [论文链接]
- 作者: Deheng Ye (Tencent) · Guibin Chen (Tencent) · Wen Zhang (Tencent) · chen sheng (qq) · Bo Yuan (Tencent) · Bo Liu (Tencent) · Jia Chen (Tencent) · Hongsheng Yu (Tencent) · Zhao Liu (Tencent) · Fuhao Qiu (Tencent AI Lab) · Liang Wang (Tencent) · Tengfei Shi (Tencent) · Yinyuting Yin (Tencent) · Bei Shi (Tencent AI Lab) · Lanxiao Huang (Tencent) · qiang fu (Tencent AI Lab) · Wei Yang (Tencent AI Lab) · Wei Liu (Tencent AI Lab)
How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization. [论文链接]
- 作者: Pierluca D’Oro (MILA) · Wojciech JaÅ›kowski (NNAISENSE SA)
Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and Tighter Regret Bounds for the Non-Episodic Setting. [论文链接]
- 作者: Ziping Xu (University of Michigan) · Ambuj Tewari (University of Michigan)
HiPPO: Recurrent Memory with Optimal Polynomial Projections. [论文链接]
- 作者: Albert Gu (Stanford) · Tri Dao (Stanford University) · Stefano Ermon (Stanford) · Atri Rudra (University at Buffalo, SUNY) · Christopher RÃ© (Stanford)
Promoting Coordination through Policy Regularization in Multi-Agent Deep Reinforcement Learning. [论文链接]
- 作者: Julien Roy (Mila) · Paul Barde (Quebec AI institute - Ubisoft La Forge) · FÃ©lix G Harvey (Polytechnique MontrÃ©al) · Derek Nowrouzezahrai (McGill University) · Chris Pal (MILA, Polytechnique MontrÃ©al, Element AI)
Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs. [论文链接]
- 作者: Chung-Wei Lee (University of Southern California) · Haipeng Luo (University of Southern California) · Chen-Yu Wei (University of Southern California) · Mengxiao Zhang (University of Southern California)
Minimax Confidence Interval for Off-Policy Evaluation and Policy Optimization. [论文链接]
- 作者: Nan Jiang (University of Illinois at Urbana-Champaign) · Jiawei Huang (University of Illinois at Urbana-Champaign)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning. [论文链接]
- 作者: Nathan Kallus (Cornell University) · Angela Zhou (Cornell University)
Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition. [论文链接]
- 作者: Tiancheng Jin (University of Southern California) · Haipeng Luo (University of Southern California)
Learning Retrospective Knowledge with Reverse Reinforcement Learning. [论文链接]
- 作者: Shangtong Zhang (University of Oxford) · Vivek Veeriah (University of Michigan) · Shimon Whiteson (University of Oxford)
Combining Deep Reinforcement Learning and Search for Imperfect-Information Games. [论文链接]
- 作者: Noam Brown (Facebook AI Research) · Anton Bakhtin (Facebook AI Research) · Adam Lerer (Facebook AI Research) · Qucheng Gong (Facebook AI Research)
Variance reduction for Langevin Monte Carlo in high dimensional sampling problems. [论文链接]
- 作者: ZHIYAN DING (University of Wisconsin-Madison) · Qin Li (University of Wisconsin-Madison)
POMO: Policy Optimization with Multiple Optima for Reinforcement Learning. [论文链接]
- 作者: Yeong-Dae Kwon (Samsung SDS) · Jinho Choo (Samsung SDS) · Byoungjip Kim (Samsung SDS) · Iljoo Yoon (Samsung SDS) · Youngjune Gwon (Samsung SDS) · Seungjai Min (Samsung SDS)
Mixed Hamiltonian Monte Carlo for Mixed Discrete and Continuous Variables. [论文链接]
- 作者: Guangyao Zhou (Vicarious AI)
Self-Paced Deep Reinforcement Learning. [论文链接]
- 作者: Pascal Klink (TU Darmstadt) · Carlo D’Eramo (TU Darmstadt) · Jan Peters (TU Darmstadt & MPI Intelligent Systems) · Joni Pajarinen (TU Darmstadt)
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning. [论文链接]
- 作者: Sebastian Curi (ETH ZÃ¼rich) · Felix Berkenkamp (Bosch Center for Artificial Intelligence) · Andreas Krause (ETH Zurich)
Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies. [论文链接]
- 作者: Nathan Kallus (Cornell University) · Masatoshi Uehara (Cornell University)
Off-Policy Evaluation and Learning for External Validity under a Covariate Shift. [论文链接]
- 作者: Masatoshi Uehara (Cornell University) · Masahiro Kato (The University of Tokyo) · Shota Yasui (Cyberagent)
Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms. [论文链接]
- 作者: Tengyu Xu (The Ohio State University) · Zhe Wang (Ohio State University) · Yingbin Liang (The Ohio State University)
Fast Epigraphical Projection-based Incremental Algorithms for Wasserstein Distributionally Robust Support Vector Machine. [论文链接]
- 作者: Jiajin Li (The Chinese University of Hong Kong) · Caihua Chen (Nanjing University) · Anthony Man-Cho So (CUHK)
A maximum-entropy approach to off-policy evaluation in average-reward MDPs. [论文链接]
- 作者: Nevena Lazic (DeepMind) · Dong Yin (DeepMind) · Mehrdad Farajtabar (DeepMind) · Nir Levine (DeepMind) · Dilan Gorur (DeepMind) · Chris Harris (Google) · Dale Schuurmans (Google Brain & University of Alberta)
- 这项工作的重点是在无限水平的无折扣马尔可夫决策过程（MDP）中使用函数逼近的off-policy评估（OPE）。对于遍历和线性的MDP（即在某些已知特征中奖励和动态是线性的），我们提供了第一个有限样本OPE误差界限，将现有结果扩展到了偶发和折扣情况之外。在更一般的情况下，当特征动态近似线性且具有任意奖励时，我们提出了一种使用函数逼近来估计平稳分布的新方法。我们将这个问题公式构造为在经验动态下找到匹配特征期望值的最大熵分布。我们表明，这导致指数族分布，其足够的统计量是特征，与监督学习中的最大熵方法平行。我们在多种环境中证明了提出的OPE方法的有效性。
Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding. [论文链接]
- 作者: Hongseok Namkoong (Stanford University) · Ramtin Keramati (Stanford University) · Steve Yadlowsky (Stanford University) · Emma Brunskill (Stanford University)
Self-Imitation Learning via Generalized Lower Bound Q-learning. [论文链接]
- 作者: Yunhao Tang (Columbia University)
Weakly-Supervised Reinforcement Learning for Controllable Behavior. [论文链接]
- 作者: Lisa Lee (CMU / Google Brain / Stanford) · Ben Eysenbach (Carnegie Mellon University) · Russ Salakhutdinov (Carnegie Mellon University) · Shixiang (Shane) Gu (Google Brain) · Chelsea Finn (Stanford)
- 强化学习（RL）是学习采取动作解决任务的强大框架。但是，在许多设定下，智能体必须将所有可能任务的难以想象的巨大空间缩小到当前被要求解决的单个任务。我们是否可以将任务空间限制为语义上有意义的任务？在这项工作中，我们介绍了一个框架，该框架使用弱监督自动将任务的这个语义有意义的子空间与无意义的“chaff”任务的巨大空间自动区分开。我们表明，该学到的子空间能够进行有效的探索，并提供包含状态之间距离信息的表示。在各种具有挑战性的，基于视觉的连续控制问题上，我们的方法可带来可观的性能提升，尤其是随着环境复杂性的提高。
An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods. [论文链接]
- 作者: Yanli Liu (UCLA) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Tamer Basar (University of Illinois at Urbana-Champaign) · Wotao Yin (Alibaba US, DAMO Academy)
MOReL: Model-Based Offline Reinforcement Learning. [论文链接]
- 作者: Rahul Kidambi (Cornell University) · Aravind Rajeswaran (University of Washington) · Praneeth Netrapalli (Microsoft Research) · Thorsten Joachims (Cornell)
Zap Q-Learning With Nonlinear Function Approximation. [论文链接]
- 作者: Shuhang Chen (University of Florida) · Adithya M Devraj (University of Florida) · Fan Lu (University of Florida) · Ana Busic (INRIA) · Sean Meyn (University of Florida)
Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension. [论文链接]
- 作者: Ruosong Wang (Carnegie Mellon University) · Russ Salakhutdinov (Carnegie Mellon University) · Lin Yang (UCLA)
Security Analysis of Safe and Seldonian Reinforcement Learning Algorithms. [论文链接]
- 作者: Pinar Ozisik (UMass Amherst) · Philip Thomas (University of Massachusetts Amherst)
RepPoints v2: Verification Meets Regression for Object Detection. [论文链接]
- 作者: Yihong Chen (Peking University) · Zheng Zhang (MSRA) · Yue Cao (Microsoft Research) · Liwei Wang (Peking University) · Stephen Lin (Microsoft Research) · Han Hu (Microsoft Research Asia)
Learning to Communicate in Multi-Agent Systems via Transformer-Guided Program Synthesis. [论文链接]
- 作者: Jeevana Priya Inala (MIT) · Yichen Yang (MIT) · James Paulos (University of Pennsylvania) · Yewen Pu (MIT) · Osbert Bastani (University of Pennysylvania) · Vijay Kumar (University of Pennsylvania) · Martin Rinard (MIT) · Armando Solar-Lezama (MIT)
Belief-Dependent Macro-Action Discovery in POMDPs using the Value of Information. [论文链接]
- 作者: Genevieve E Flaspohler (Massachusetts Institute of Technology) · Nicholas Roy (MIT) · John W Fisher III (MIT)
Bayesian Multi-type Mean Field Multi-agent Imitation Learning. [论文链接]
- 作者: Fan Yang (University at Buffalo) · Alina Vereshchaka (University at Buffalo) · Changyou Chen (University at Buffalo) · Wen Dong (University at Buffalo)
Model-based Adversarial Meta-Reinforcement Learning. [论文链接]
- 作者: Zichuan Lin (Tsinghua University) · Garrett W. Thomas (Stanford University) · Guangwen Yang (Tsinghua University) · Tengyu Ma (Stanford University)
Provably Efficient Neural GTD for Off-Policy Learning. [论文链接]
- 作者: Hoi-To Wai (The Chinese University of Hong Kong) · Zhuoran Yang (Princeton) · Zhaoran Wang (Northwestern University) · Mingyi Hong (University of Minnesota)
A Randomized Algorithm to Reduce the Support of Discrete Measures. [论文链接]
- 作者: Francesco Cosentino (University of Oxford) · Harald Oberhauser (University of Oxford) · Alessandro Abate (University of Oxford)
Model Inversion Networks for Model-Based Optimization. [论文链接]
- 作者: Aviral Kumar (UC Berkeley) · Sergey Levine (UC Berkeley)
- 在这项工作中，我们旨在解决数据驱动的优化问题，其中的目标是找到一个输入，该输入可以在访问具有相应分数的输入数据集的情况下最大化未知分数函数。当输入为高维且有效输入构成该空间的一小部分子集（例如，有效的蛋白质序列或有效的自然图像）时，此类基于模型的优化问题将变得异常困难，因为优化器必须避免分布不均和无效的输入。我们建议使用模型反演网络（MINs）解决此类问题，模型反演网络学习从得分到输入的逆映射。MINs可以扩展到高维输入空间，并利用脱机记录的数据来解决上下文优化和非上下文优化问题。MINs还可以处理offline数据源和active数据收集。我们从贝叶斯优化文献，基于高维模型的图像和蛋白质设计优化问题以及从记录数据中进行的上下文老虎机优化等任务来评估MINs。
Safe Reinforcement Learning via Curriculum Induction. [论文链接]
- 作者: Matteo Turchetta (ETH Zurich) · Andrey Kolobov (Microsoft Research) · Shital Shah (Microsoft) · Andreas Krause (ETH Zurich) · Alekh Agarwal (Microsoft Research)
Conservative Q-Learning for Offline Reinforcement Learning. [论文链接]
- 作者: Aviral Kumar (UC Berkeley) · Aurick Zhou (University of California, Berkeley) · George Tucker (Google Brain) · Sergey Levine (UC Berkeley)
- 在强化学习（RL）中有效地利用以前收集的大型数据集是大规模实际应用的主要挑战。offline RL算法保证无需进一步交互即可从以前收集的静态数据集中学习有效的策略。但是，在实践中，offline RL提出了一个重大挑战，标准的off-policy RL方法可能会因对价值的高估而失败，这种高估往往由数据集以及学到的策略之间的分布偏移引起，尤其是在训练复杂和多模态数据分布时。在本文中，我们提出了保守Q学习（CQL），其目的是通过学习保守Q函数来解决这些局限性，从而使该Q函数下的策略期望值lower-bounds其真实值。我们从理论上证明CQL对当前策略的价值产生了lower bound，并且可以将其纳入具有理论改进保证的策略学习过程中。在实践中，CQL通过简单的Q值正则化扩展了标准的Bellman误差目标，该Q值正则化可以在现有的深度Q-learning和actor-critic的实现基础上直接实现。在离散和连续控制域上，我们都表明CQL大大优于现有的offline RL方法，经常，学习的策略可以获得更高的2-5倍的最终回报，尤其是从复杂的多模态数据分布中学习时。
SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection. [论文链接]
- 作者: Xiaoya Li (Shannon.AI) · Yuxian Meng (Shannon.AI) · Mingxin Zhou (Shannon.AI) · Qinghong Han (Shannon.AI) · Fei Wu (Zhejiang University) · Jiwei Li (Shannon.AI)
Variational Bayesian Monte Carlo with Noisy Likelihoods. [论文链接]
- 作者: Luigi Acerbi (University of Helsinki)
Munchausen Reinforcement Learning. [论文链接]
- 作者: Nino Vieillard (Google Brain) · Olivier Pietquin (Google Research Brain Team) · Matthieu Geist (Google Brain)
- 自举是强化学习（RL）中的核心机制。大多数算法都基于temporal differences，以其对当前值的估计来代替过渡状态的真实值。但是，可以利用另一个估算来引导RL：当前策略。我们的核心贡献在于一个非常简单的想法：将放缩的log-policy添加到即时奖励中。我们证明，以这种方式稍加修改Deep Q-Network（DQN）即可提供一种在Atari游戏上与分布式方法匹敌的智能体，而无需利用分布式RL，n步收益或先验重放。为了证明这种想法的通用性，我们还将其与Implicit Quantile Network（IQN）结合使用。最终的智能体在Atari上的表现要优于Rainbow，在不对原始算法进行很少修改的情况下安装了最新的技术。为了增加此经验研究，我们提供了关于幕后发生的强大理论见解-隐式Kullback-Leibler正则化和行动差距的增加。
A Self-Tuning Actor-Critic Algorithm. [论文链接]
- 作者: Tom Zahavy (Technion) · Zhongwen Xu (DeepMind) · Vivek Veeriah (University of Michigan) · Matteo Hessel (Google DeepMind) · Junhyuk Oh (DeepMind) · Hado van Hasselt (DeepMind) · David Silver (DeepMind) · Satinder Singh (DeepMind)
- 强化学习算法对超参数的选择高度敏感，通常需要大量的人工工作才能确定在新域上表现良好的超参数。在本文中，我们迈出了一步，通过meta-gradient descent（Xu等人，2018）使用元梯度在线自动调整超参数。我们应用我们的算法Self-Tuning Actor-Critic（STAC），自调整actor-critic损失函数的所有可微超参数，发现辅助任务，并使用新型的leaky V-trace算子改善off-policy学习。STAC易于使用，高效采样并且不需要显着增加计算量。Ablative studies表明，随着我们适应更多的超参数，STAC的整体性能得到改善。当应用于Arcade学习环境（Bellemare等人，2012）时，STAC将人类正常化得分的中位数从200％的步长从243％提高到364％。当应用于DM Control套件（Tassa等人，2018）时，STAC在使用特征学习时以3,000万步的平均得分从217提高到389，从像素学习时从108改进到202，在真实世界强化学习挑战赛（Dulac-Arnold等人，2020年）中从195改进到295。
Non-Crossing Quantile Regression for Distributional Reinforcement Learning. [论文链接]
- 作者: Fan Zhou (Shanghai University of Finance and Economics) · Jianing Wang (Shanghai University of Finance and Economics) · Xingdong Feng (Shanghai University of Finance and Economics)
Learning Implicit Credit Assignment for Multi-Agent Actor-Critic. [论文链接]
- 作者: Meng Zhou (University of Sydney) · Ziyu Liu (University of Sydney) · Pengwei Sui (University of Sydney) · Yixuan Li (The University of Sydney) · Yuk Ying Chung (The University of Sydney)
Online Meta-Critic Learning for Off-Policy Actor-Critic Methods. [论文链接]
- 作者: Wei Zhou (National University of Defense Technology) · Yiying Li (National University of Defense Technology) · Yongxin Yang (University of Edinburgh ) · Huaimin Wang (National University of Defense Technology) · Timothy Hospedales (University of Edinburgh)
Online Decision Based Visual Tracking via Reinforcement Learning. [论文链接]
- 作者: ke Song (Shandong university) · Wei Zhang (Shandong University) · Ran Song (School of Control Science and Engineering, Shandong University) · Yibin Li (Shandong University)
Adversarial Soft Advantage Fitting: Imitation Learning without Policy Optimization. [论文链接]
- 作者: Paul Barde (Quebec AI institute - Ubisoft La Forge) · Julien Roy (Mila) · Wonseok Jeon (MILA, McGill University) · Joelle Pineau (McGill University) · Chris Pal (MILA, Polytechnique MontrÃ©al, Element AI) · Derek Nowrouzezahrai (McGill University)
Discovering Reinforcement Learning Algorithms. [论文链接]
- 作者: Junhyuk Oh (DeepMind) · Matteo Hessel (Google DeepMind) · Wojciech Czarnecki (DeepMind) · Zhongwen Xu (DeepMind) · Hado van Hasselt (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)
Model-based Policy Optimization with Unsupervised Model Adaptation. [论文链接]
- 作者: Jian Shen (Shanghai Jiao Tong University) · Han Zhao (Carnegie Mellon University) · Weinan Zhang (Shanghai Jiao Tong University) · Yong Yu (Shanghai Jiao Tong Unviersity)
Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning. [论文链接]
- 作者: Filippos Christianos (University of Edinburgh) · Lukas SchÃ¤fer (University of Edinburgh) · Stefano Albrecht (University of Edinburgh)
The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning. [论文链接]
- 作者: Harm Van Seijen (Microsoft Research) · Hadi Nekoei (MILA) · Evan Racah (Mila, UniversitÃ© de MontrÃ©al) · Sarath Chandar (Mila / Ã‰cole Polytechnique de MontrÃ©al)
Deep Inverse Q-learning with Constraints. [论文链接]
- 作者: Gabriel Kalweit (University of Freiburg) · Maria Huegle (University of Freiburg) · Moritz Werling (BMWGroup, Unterschleissheim) · Joschka Boedecker (University of Freiburg)
Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning. [论文链接]
- 作者: Nino Vieillard (Google Brain) · Tadashi Kozuno (Okinawa Institute of Science and Technology) · Bruno Scherrer (INRIA) · Olivier Pietquin (Google Research Brain Team) · Remi Munos (DeepMind) · Matthieu Geist (Google Brain)
Task-agnostic Exploration in Reinforcement Learning. [论文链接]
- 作者: Xuezhou Zhang (UW-Madison) · Yuzhe Ma (University of Wisconsin-Madison) · Adish Singla (MPI-SWS)
Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning. [论文链接]
- 作者: Tianren Zhang (Tsinghua University) · Shangqi Guo (Tsinghua University) · Tian Tan (Stanford University) · Xiaolin Hu (Tsinghua University) · Feng Chen (Tsinghua University)
Reinforcement Learning with Feedback Graphs. [论文链接]
- 作者: Christoph Dann (Carnegie Mellon University) · Yishay Mansour (Google) · Mehryar Mohri (Courant Inst. of Math. Sciences & Google Research) · Ayush Sekhari (Cornell University) · Karthik Sridharan (Cornell University)
Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning. [论文链接]
- 作者: Jianda Chen (Nanyang Technological University) · Shangyu Chen (Nanyang Technological University, Singapore) · Sinno Jialin Pan (Nanyang Technological University, Singapore)
Towards Safe Policy Improvement for Non-Stationary MDPs. [论文链接]
- 作者: Yash Chandak (University of Massachusetts Amherst) · Scott Jordan (University of Massachusetts Amherst) · Georgios Theocharous (Adobe Research) · Martha White (University of Alberta) · Philip Thomas (University of Massachusetts Amherst)
Multi-Task Reinforcement Learning with Soft Modularization. [论文链接]
- 作者: Ruihan Yang (UC San Diego) · Huazhe Xu (UC Berkeley) · YI WU (UC Berkeley) · Xiaolong Wang (UCSD/UC Berkeley)
Weighted QMIX: Improving Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning. [论文链接]
- 作者: Tabish Rashid (University of Oxford) · Gregory Farquhar (University of Oxford) · Bei Peng (University of Oxford) · Shimon Whiteson (University of Oxford)
MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning. [论文链接]
- 作者: Elise van der Pol (University of Amsterdam) · Daniel Worrall (University of Amsterdam) · Herke van Hoof (University of Amsterdam) · Frans Oliehoek (TU Delft) · Max Welling (University of Amsterdam / Qualcomm AI Research)
CoinDICE: Off-Policy Confidence Interval Estimation. [论文链接]
- 作者: Bo Dai (Google Brain) · Ofir Nachum (Google Brain) · Yinlam Chow (Google Research) · Lihong Li (Google Research) · Csaba Szepesvari (DeepMind / University of Alberta) · Dale Schuurmans (Google Brain & University of Alberta)
An Operator View of Policy Gradient Methods. [论文链接]
- 作者: Dibya Ghosh (Google) · Marlos C. Machado (Google Brain) · Nicolas Le Roux (Google Brain)
On Efficiency in Hierarchical Reinforcement Learning. [论文链接]
- 作者: Zheng Wen (DeepMind) · Doina Precup (DeepMind) · Morteza Ibrahimi (DeepMind) · Andre Barreto (DeepMind) · Benjamin Van Roy (Stanford University) · Satinder Singh (DeepMind)
Variational Policy Gradient Method for Reinforcement Learning with General Utilities. [论文链接]
- 作者: Junyu Zhang (Princeton University) · Alec Koppel (U.S. Army Research Laboratory) · Amrit Singh Bedi (US Army Research Laboratory) · Csaba Szepesvari (DeepMind / University of Alberta) · Mengdi Wang (Princeton University)
A Finite-Time Analysis of Two Time-Scale Actor-Critic Methods. [论文链接]
- 作者: Yue Wu (University of California, Los Angeles) · Weitong ZHANG (University of California, Los Angeles) · Pan Xu (University of California, Los Angeles) · Quanquan Gu (UCLA)
POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with Non-Asymptotic Analysis. [论文链接]
- 作者: Weichao Mao (University of Illinois Urbana-Champaign) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Qiaomin Xie (Cornell University) · Tamer Basar (University of Illinois at Urbana-Champaign)
Can Temporal-Diï¬€erence and Q-Learning Learn Representation? A Mean-Field Theory. [论文链接]
- 作者: Yufeng Zhang (Northwestern University) · Qi Cai (Northwestern University) · Zhuoran Yang (Princeton) · Yongxin Chen (Georgia Institute of Technology) · Zhaoran Wang (Northwestern University)
Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs. [论文链接]
- 作者: Jianzhun Du (Harvard University) · Joseph Futoma (Harvard University) · Finale Doshi-Velez (Harvard)
Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction. [论文链接]
- 作者: Gen Li (Tsinghua University) · Yuting Wei (Carnegie Mellon University) · Yuejie Chi (CMU) · Yuantao Gu (Tsinghua University) · Yuxin Chen (Princeton University)
Reinforcement Learning with Augmented Data. [论文链接]
- 作者: Misha Laskin (UC Berkeley) · Kimin Lee (UC Berkeley) · Adam Stooke (UC Berkeley) · Lerrel Pinto (New York University) · Pieter Abbeel (UC Berkeley & covariant.ai) · Aravind Srinivas (UC Berkeley)
Improved Sample Complexity for Incremental Autonomous Exploration in MDPs. [论文链接]
- 作者: Jean Tarbouriech (Facebook AI Research Paris & Inria Lille) · Matteo Pirotta (Facebook AI Research) · Michal Valko (DeepMind Paris and Inria Lille - Nord Europe) · Alessandro Lazaric (Facebook Artificial Intelligence Research)
EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning. [论文链接]
- 作者: Jiachen Li (University of California, Berkeley) · Fan Yang (University of California, Berkeley) · Masayoshi Tomizuka (University of California, Berkeley) · Chiho Choi (Honda Research Institute US)
Autofocused oracles for model-based design. [论文链接]
- 作者: Clara Fannjiang (UC Berkeley) · Jennifer Listgarten (UC Berkeley)
Off-Policy Evaluation via the Regularized Lagrangian. [论文链接]
- 作者: Mengjiao Yang (Google) · Ofir Nachum (Google Brain) · Bo Dai (Google Brain) · Lihong Li (Google Research) · Dale Schuurmans (Google Brain & University of Alberta)
Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing. [论文链接]
- 作者: Arthur Delarue (MIT) · Ross Anderson (Google Research) · Christian Tjandraatmadja (Google)
MOPO: Model-based Offline Policy Optimization. [论文链接]
- 作者: Tianhe Yu (Stanford University) · Garrett W. Thomas (Stanford University) · Lantao Yu (Stanford University) · Stefano Ermon (Stanford) · James Zou (Stanford University) · Sergey Levine (UC Berkeley) · Chelsea Finn (Stanford) · Tengyu Ma (Stanford University)
- code
- offline 强化学习（RL）指的是完全从大量先前收集的数据中学习策略的问题。这个问题设置提供了利用此类数据集获取策略的希望，而无需进行任何昂贵或危险的主动探索。但是，由于脱机训练数据与所学习策略访问的状态之间的分布偏移，这一问题同样具有挑战性。尽管最近取得了重大进展，但最成功的现有方法是无模型的，并且将策略限制在数据的支持上，从而无法将模型推广到未见状态。在本文中，我们首先观察到，与无模型方法相比，现有的基于模型的RL算法在offline环境中已经产生了可观的收益。但是，为在线设置设计的基于标准模型的RL方法没有提供明确的机制来避免offline设置的分布偏移问题。取而代之的是，我们建议修改现有的基于模型的RL方法，方法是由动态的不确定性人为惩罚所获得的奖励。我们从理论上表明，该算法在真实MDP下最大化了策略收益的下限。我们还描述了在离开批数据支持的风险与收益之间的权衡。我们的算法Model-based Offline Policy Optimization（MOPO）在现有的offline RL基准测试和两项具有挑战性的连续控制任务（需要利用新任务收集的数据进行泛化）上均优于标准的基于模型的RL算法和现有的最新无模型offline RL算法。
Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis. [论文链接]
- 作者: Shaocong Ma (University of Utah) · Yi Zhou (University of Utah) · Shaofeng Zou (University at Buffalo, the State University of New York)
Dynamic Regret of Policy Optimization in Non-stationary Environments. [论文链接]
- 作者: Yingjie Fei (Cornell University) · Zhuoran Yang (Princeton) · Zhaoran Wang (Northwestern University) · Qiaomin Xie (Cornell University)
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction. [论文链接]
- 作者: Aviral Kumar (UC Berkeley) · Abhishek Gupta (University of California, Berkeley) · Sergey Levine (UC Berkeley)
- blog
- code
- 深度强化学习可以学习适用于各种任务的有效策略，但众所周知，由于不稳定和对超参数敏感，因此难以使用。其原因尚不清楚。当使用标准的监督方法（例如，针对老虎机问题）时，on-policy的数据收集会提供“hard negatives”，可以在策略可能访问的那些状态和动作中准确地纠正模型。我们称这种现象为“校正反馈”。我们表明，基于自举的Q-learning算法不一定能从此校正反馈中受益，并且对算法收集的经验进行训练不足以校正Q函数中的错误。实际上，Q-learning和相关方法可能会表现出智能体收集的经验分布与该经验的训练所诱导的策略之间病态的相互作用，从而导致潜在的不稳定，局部最优收敛，以及从嘈杂、稀疏或延迟的奖励中学习获得较差的结果。我们从理论和实验上证明了这个问题的存在。然后，我们表明对数据分布的特定修正可以缓解此问题。基于这些观察，我们提出了一种新算法DisCor，该算法可计算出该最佳分布的近似值，并使用它重新加权用于训练的transitions，从而在一系列具有挑战性的RL设置（例如多任务学习和从嘈杂的奖励信号中学习）中得到实质性的改进。
FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs. [论文链接]
- 作者: Alekh Agarwal (Microsoft Research) · Sham Kakade (University of Washington) · Akshay Krishnamurthy (Microsoft) · Wen Sun (Microsoft Research NYC)
Neurosymbolic Reinforcement Learning with Formally Verified Exploration. [论文链接]
- 作者: Greg Anderson (University of Texas at Austin) · Abhinav Verma (Rice University) · Isil Dillig (UT Austin) · Swarat Chaudhuri (The University of Texas at Austin)
Generalized Hindsight for Reinforcement Learning. [论文链接]
- 作者: Alexander Li (UC Berkeley) · Lerrel Pinto (New York University) · Pieter Abbeel (UC Berkeley & covariant.ai)
Finite-Time Analysis for Double Q-learning. [论文链接]
- 作者: Huaqing Xiong (Ohio State University) · Lin Zhao (National University of Singapore) · Yingbin Liang (The Ohio State University) · Wei Zhang (Southern University of Science and Technology)
Subgroup-based Rank-1 Lattice Quasi-Monte Carlo. [论文链接]
- 作者: Yueming LYU (University of Technology Sydney) · Yuan Yuan (MIT) · Ivor Tsang (University of Technology, Sydney)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online. [论文链接]
- 作者: Zhongwen Xu (DeepMind) · Hado van Hasselt (DeepMind) · Matteo Hessel (Google DeepMind) · Junhyuk Oh (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)
TorsionNet: A Reinforcement Learning Approach to Sequential Conformer Search. [论文链接]
- 作者: Tarun Gogineni (University of Michigan) · Ziping Xu (University of Michigan) · Exequiel Punzalan (University of Michigan) · Runxuan Jiang (University of Michigan) · Joshua Kammeraad (University of Michigan) · Ambuj Tewari (University of Michigan) · Paul Zimmerman (University of Michigan)
Succinct and Robust Multi-Agent Communication With Temporal Message Control. [论文链接]
- 作者: Sai Qian Zhang (Harvard University) · Qi Zhang (Amazon) · Jieyu Lin (University of Toronto)
Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning. [论文链接]
- 作者: Cong Zhang (Nanyang Technological University) · Wen Song (Institute of Marine Scinece and Technology, Shandong University) · Zhiguang Cao (National University of Singapore) · Jie Zhang (Nanyang Technological University) · Puay Siew Tan (SIMTECH) · Xu Chi (Singapore Institute of Manufacturing Technology, A-Star)
Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning?. [论文链接]
- 作者: Qiwen Cui (Peking University) · Lin Yang (UCLA)
Instance-based Generalization in Reinforcement Learning. [论文链接]
- 作者: Martin Bertran (Duke University) · Natalia L Martinez (Duke University) · Mariano Phielipp (Intel AI Labs) · Guillermo Sapiro (Duke University)
Preference-based Reinforcement Learning with Finite-Time Guarantees. [论文链接]
- 作者: Yichong Xu (Carnegie Mellon University) · Ruosong Wang (Carnegie Mellon University) · Lin Yang (UCLA) · Aarti Singh (CMU) · Artur Dubrawski (Carnegie Mellon University)
Learning to Decode: Reinforcement Learning for Decoding of Sparse Graph-Based Channel Codes. [论文链接]
- 作者: Salman Habib (New Jersey Institute of Tech) · Allison Beemer (New Jersey Institute of Technology) · Joerg Kliewer (New Jersey Institute of Technology)
BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning. [论文链接]
- 作者: Xinyue Chen (NYU Shanghai) · Zijian Zhou (NYU Shanghai) · Zheng Wang (NYU Shanghai) · Che Wang (New York University) · Yanqiu Wu (New York University) · Keith Ross (NYU Shanghai)
Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes. [论文链接]
- 作者: Mengdi Xu (Carnegie Mellon University) · Wenhao Ding (Carnegie Mellon University) · Jiacheng Zhu (Carnegie Mellon University) · ZUXIN LIU (Carnegie Mellon University) · Baiming Chen (Tsinghua University) · Ding Zhao (Carnegie Mellon University)
On Reward-Free Reinforcement Learning with Linear Function Approximation. [论文链接]
- 作者: Ruosong Wang (Carnegie Mellon University) · Simon Du (Institute for Advanced Study) · Lin Yang (UCLA) · Russ Salakhutdinov (Carnegie Mellon University)
Near-Optimal Reinforcement Learning with Self-Play. [论文链接]
- 作者: Yu Bai (Salesforce Research) · Chi Jin (Princeton University) · Tiancheng Yu (MIT )
Robust Multi-Agent Reinforcement Learning with Model Uncertainty. [论文链接]
- 作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · TAO SUN (Amazon.com) · Yunzhe Tao (Amazon Artificial Intelligence) · Sahika Genc (Amazon Artificial Intelligence) · Sunil Mallya (Amazon AWS) · Tamer Basar (University of Illinois at Urbana-Champaign)
Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes. [论文链接]
- 作者: Yi Tian (MIT) · Jian Qian (MIT) · Suvrit Sra (MIT)
Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward. [论文链接]
- 作者: Guannan Qu (California Institute of Technology) · Yiheng Lin (California Institute of Technology) · Adam Wierman (California Institute of Technology) · Na Li (Harvard University)
Constrained episodic reinforcement learning in concave-convex and knapsack settings. [论文链接]
- 作者: KiantÃ© Brantley (The University of Maryland College Park) · Miro Dudik (Microsoft Research) · Thodoris Lykouris (Microsoft Research NYC) · Sobhan Miryoosefi (Princeton University) · Max Simchowitz (Berkeley) · Aleksandrs Slivkins (Microsoft Research) · Wen Sun (Microsoft Research NYC)
Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation. [论文链接]
- 作者: Devavrat Shah (Massachusetts Institute of Technology) · Dogyoon Song (Massachusetts Institute of Technology) · Zhi Xu (MIT) · Yuzhe Yang (MIT)
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning. [论文链接]
- 作者: Younggyo Seo (KAIST) · Kimin Lee (UC Berkeley) · Ignasi Clavera Gilaberte (UC Berkeley) · Thanard Kurutach (University of California Berkeley) · Jinwoo Shin (KAIST) · Pieter Abbeel (UC Berkeley & covariant.ai)
Cooperative Heterogeneous Deep Reinforcement Learning. [论文链接]
- 作者: Han Zheng (UTS) · Pengfei Wei (National University of Singapore) · Jing Jiang (University of Technology Sydney) · Guodong Long (University of Technology Sydney (UTS)) · Qinghua Lu (Data61, CSIRO) · Chengqi Zhang (University of Technology Sydney)
Global Convergence of Natural Primal-Dual Method for Constrained Markov Decision Processes. [论文链接]
- 作者: Dongsheng Ding (University of Southern California) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Mihailo Jovanovic (University of Southern California) · Tamer Basar (University of Illinois at Urbana-Champaign)
Implicit Distributional Reinforcement Learning. [论文链接]
- 作者: Yuguang Yue (University of Texas at Austin) · Zhendong Wang (University of Texas, Austin) · Mingyuan Zhou (University of Texas at Austin)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization. [论文链接]
- 作者: Sreejith Balakrishnan (National University of Singapore) · Quoc Phong Nguyen (National University of Singapore) · Bryan Kian Hsiang Low (National University of Singapore) · Harold Soh (National University Singapore)
EPOC: A Provably Correct Policy Gradient Approach to Reinforcement Learning. [论文链接]
- 作者: Alekh Agarwal (Microsoft Research) · Mikael Henaff (Microsoft) · Sham Kakade (University of Washington) · Wen Sun (Microsoft Research NYC)
Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations. [论文链接]
- 作者: Zhuoran Yang (Princeton) · Chi Jin (Princeton University) · Zhaoran Wang (Northwestern University) · Mengdi Wang (Princeton University) · Michael Jordan (UC Berkeley)
Decoupled Policy Gradient Methods for Competitive Reinforcement Learning. [论文链接]
- 作者: Constantinos Daskalakis (MIT) · Dylan Foster (MIT) · Noah Golowich (Massachusetts Institute of Technology)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss. [论文链接]
- 作者: Shuang Qiu (University of Michigan) · Xiaohan Wei (University of Southern California) · Zhuoran Yang (Princeton) · Jieping Ye (University of Michigan) · Zhaoran Wang (Northwestern University)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity. [论文链接]
- 作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Sham Kakade (University of Washington) · Tamer Basar (University of Illinois at Urbana-Champaign) · Lin Yang (UCLA)
PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals. [论文链接]
- 作者: Henry Charlesworth (University of Warwick) · Giovanni Montana (University of Warwick)
Improving Generalization in Reinforcement Learning with Mixture Regularization. [论文链接]
- 作者: KAIXIN WANG (National University of Singapore) · Bingyi Kang (National University of Singapore) · Jie Shao (Fudan University) · Jiashi Feng (National University of Singapore)
A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning. [论文链接]
- 作者: Arnu Pretorius (InstaDeep) · Scott Cameron (Instadeep) · Elan van Biljon (Stellenbosch University) · Thomas Makkink (InstaDeep) · Shahil Mawjee (InstaDeep) · Jeremy du Plessis (University of Cape Town) · Jonathan Shock (University of Cape Town) · Alexandre Laterre (InstaDeep) · Karim Beguir (InstaDeep)
Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack Constraint. [论文链接]
- 作者: Georgios Amanatidis (University of Essex) · Federico Fusco (Sapienza University of Rome) · Philip Lazos (Sapienza University of Rome) · Stefano Leonardi (Sapienza University of Rome) · Rebecca ReiffenhÃ¤user (Sapienza University of Rome)
Planning in Markov Decision Processes with Gap-Dependent Sample Complexity. [论文链接]
- 作者: Anders Jonsson (Universitat Pompeu Fabra) · Emilie Kaufmann (CNRS) · Pierre Menard (Inria) · Omar Darwiche Domingues (Inria) · Edouard Leurent (INRIA) · Michal Valko (DeepMind)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games. [论文链接]
- 作者: Yunqiu Xu (University of Technology Sydney) · Meng Fang (Tencent) · Ling Chen (“ University of Technology, Sydney, Australia”) · Yali Du (University College London) · Joey Tianyi Zhou (IHPC, A*STAR) · Chengqi Zhang (University of Technology Sydney)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics. [论文链接]
- 作者: Parameswaran Kamalaruban (EPFL) · Yu-Ting Huang (EPFL) · Ya-Ping Hsieh (EPFL) · Paul Rolland (EPFL) · Cheng Shi (Unversity of Basel) · Volkan Cevher (EPFL)
Interferobot: aligning an optical interferometer by a reinforcement learning agent. [论文链接]
- 作者: Dmitry Sorokin (Russian Quantum Center) · Alexander Ulanov (Russian Quantum Center) · Ekaterina Sazhina (Russian Quantum Center) · Alexander Lvovsky (Oxford University)
Reinforcement Learning for Control with Multiple Frequencies. [论文链接]
- 作者: Jongmin Lee (KAIST) · ByungJun Lee (KAIST) · Kee-Eung Kim (KAIST)
Learning to Play Sequential Games versus Unknown Opponents. [论文链接]
- 作者: Pier Giuseppe Sessa (ETH ZÃ¼rich) · Ilija Bogunovic (ETH Zurich) · Maryam Kamgarpour (ETH ZÃ¼rich) · Andreas Krause (ETH Zurich)
Contextual Games: Multi-Agent Learning with Side Information. [论文链接]
- 作者: Pier Giuseppe Sessa (ETH ZÃ¼rich) · Ilija Bogunovic (ETH Zurich) · Andreas Krause (ETH Zurich) · Maryam Kamgarpour (ETH ZÃ¼rich)
Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret. [论文链接]
- 作者: Yingjie Fei (Cornell University) · Zhuoran Yang (Princeton) · Yudong Chen (Cornell University) · Zhaoran Wang (Northwestern University) · Qiaomin Xie (Cornell University)
Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation. [论文链接]
- 作者: Aaron Sonabend (Harvard University) · Junwei Lu () · Leo Anthony Celi (Massachusetts Institute of Technology) · Tianxi Cai (Harvard School of Public Health) · Peter Szolovits (MIT)
Dynamic allocation of limited memory resources in reinforcement learning. [论文链接]
- 作者: Nisheet Patel (University of Geneva) · Luigi Acerbi (University of Helsinki) · Alexandre Pouget (University of Geneva)
AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control. [论文链接]
- 作者: Afshin Oroojlooy (SAS Institute, Inc) · Mohammadreza Nazari (SAS Institute Inc.) · Davood Hajinezhad (SAS Institute Inc.) · Jorge Silva (SAS)
Sample-Efficient Reinforcement Learning of Undercomplete POMDPs. [论文链接]
- 作者: Chi Jin (Princeton University) · Sham Kakade (University of Washington) · Akshay Krishnamurthy (Microsoft) · Qinghua Liu (Princeton University)
Learning discrete distributions with infinite support. [论文链接]
- 作者: Doron Cohen (Ben-Gurion University of the Negev) · Aryeh Kontorovich (Ben Gurion University) · Geoï¬€rey Wolfer (Ben-Gurion University of the Negev)
Joint Policy Search for Multi-agent Collaboration with Incomplete Information. [论文链接]
- 作者: Yuandong Tian (Facebook AI Research) · Qucheng Gong (Facebook AI Research) · Yu Jiang (Facebook AI Research)
R-learning in actor-critic model offers a biologically relevant mechanism for sequential decision-making. [论文链接]
- 作者: Sergey Shuvaev (Cold Spring Harbor Laboratory) · Sarah Starosta (Washington University in St. Louis) · Duda Kvitsiani (Aarhus University) · Adam Kepecs (Washington University in St. Louis) · Alexei Koulakov (Cold Spring Harbor Laboratory)
Multi-agent active perception with prediction rewards. [论文链接]
- 作者: Mikko Lauri (University of Hamburg) · Frans Oliehoek (TU Delft)
RL Unplugged: A Collection of Benchmarks for Offline Reinforcement Learning. [论文链接]
- 作者: Ziyu Wang (Deepmind) · Caglar Gulcehre (Deepmind) · Alexander Novikov (DeepMind) · Thomas Paine (DeepMind) · Sergio GÃ³mez (DeepMind) · Konrad Zolna (DeepMind) · Rishabh Agarwal (Google Research, Brain Team) · Josh Merel (DeepMind) · Daniel Mankowitz (DeepMind) · Cosmin Paduraru (DeepMind) · Gabriel Dulac-Arnold (Google Research) · Jerry Li (Google) · Mohammad Norouzi (Google Brain) · Matthew Hoffman (DeepMind) · Nicolas Heess (Google DeepMind) · Nando de Freitas (DeepMind)
A local temporal difference code for distributional reinforcement learning. [论文链接]
- 作者: Pablo Tano (University of Geneva) · Peter Dayan (Max Planck Institute for Biological Cybernetics) · Alexandre Pouget (University of Geneva)
Learning to Play No-Press Diplomacy with Best Response Policy Iteration. [论文链接]
- 作者: Thomas Anthony (DeepMind) · Tom Eccles (DeepMind) · Andrea Tacchetti (DeepMind) · JÃ¡nos KramÃ¡r (DeepMind) · Ian Gemp (DeepMind) · Thomas Hudson (DeepMind) · Nicolas Porcel (DeepMind) · Marc Lanctot (DeepMind) · Julien Perolat (DeepMind) · Richard Everett (DeepMind) · Satinder Singh (DeepMind) · Thore Graepel (DeepMind) · Yoram Bachrach ()
The Value Equivalence Principle for Model-Based Reinforcement Learning. [论文链接]
- 作者: Christopher Grimm (University of Michigan) · Andre Barreto (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)
Multi-agent Trajectory Prediction with Fuzzy Query Attention. [论文链接]
- 作者: Nitin Kamra (University of Southern California) · Hao Zhu (Peking University) · Dweep Kumarbhai Trivedi (University of Southern California) · Ming Zhang (Peking University) · Yan Liu (University of Southern California)
Trust the Model When It Is Confident: Masked Model-based Actor-Critic. [论文链接]
- 作者: Feiyang Pan (Institute of Computing Technology, Chinese Academy of Sciences) · Jia He (Huawei) · Dandan Tu (Huawei) · Qing He (Institute of Computing Technology, Chinese Academy of Sciences)
POMDPs in Continuous Time and Discrete Spaces. [论文链接]
- 作者: Bastian Alt (Technische UniversitÃ¤t Darmstadt) · Matthias Schultheis (Technische UniversitÃ¤t Darmstadt) · Heinz Koeppl (Technische UniversitÃ¤t Darmstadt)
Steady State Analysis of Episodic Reinforcement Learning. [论文链接]
- 作者: Huang Bojun (Rakuten Institute of Technology)
Learning Multi-Agent Communication through Structured Attentive Reasoning. [论文链接]
- 作者: Murtaza Rangwala (Virginia Tech) · Ryan K Williams (Virginia Tech)
Information-theoretic Task Selection for Meta-Reinforcement Learning. [论文链接]
- 作者: Ricardo Luna Gutierrez (University of Leeds) · Matteo Leonetti (University of Leeds)
The Mean-Squared Error of Double Q-Learning. [论文链接]
- 作者: Wentao Weng (Tsinghua University) · Harsh Gupta (University of Illinois at Urbana-Champaign) · Niao He (UIUC) · Lei Ying (University of Michigan) · R. Srikant (University of Illinois at Urbana-Champaign)
A Unifying View of Optimism in Episodic Reinforcement Learning. [论文链接]
- 作者: Gergely Neu (Universitat Pompeu Fabra) · Ciara Pike-Burke (Imperial College London)
Accelerating Reinforcement Learning through GPU Atari Emulation. [论文链接]
- 作者: Steven Dalton (Nvidia) · iuri frosio (nvidia)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations. [论文链接]
- 作者: Huan Zhang (UCLA) · Hongge Chen (MIT) · Chaowei Xiao (University of Michigan, Ann Arbor) · Bo Li (UIUC) · mingyan liu (university of Michigan, Ann Arbor) · Duane Boning (Massachusetts Institute of Technology) · Cho-Jui Hsieh (UCLA)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning. [论文链接]
- 作者: Guangxiang Zhu (Tsinghua university) · Minghao Zhang (Tsinghua University) · Honglak Lee (Google / U. Michigan) · Chongjie Zhang (Tsinghua University)
Direct Policy Gradients: Direct Optimization of Policies in Discrete Action Spaces. [论文链接]
- 作者: Guy Lorberbom (Technion) · Chris J. Maddison (University of Toronto) · Nicolas Heess (Google DeepMind) · Tamir Hazan (Technion) · Daniel Tarlow (Google Brain)
Hamiltonian Monte Carlo using an adjoint-differentiated Laplace approximation. [论文链接]
- 作者: Charles Margossian (Columbia) · Aki Vehtari (Aalto University) · Daniel Simpson (University of Toronto) · Raj Agrawal (MIT)
A Unified Switching System Perspective and Convergence Analysis of Q-Learning Algorithms. [论文链接]
- 作者: Niao He (UIUC) · Donghwan Lee (KAIST)
Adaptive Discretization for Model-Based Reinforcement Learning. [论文链接]
- 作者: Sean Sinclair (Cornell University) · Tianyu Wang (Duke University) · Gauri Jain (Cornell University) · Siddhartha Banerjee (Cornell University) · Christina Yu (Cornell University)
Stateful Posted Pricing with Vanishing Regret via Dynamic Deterministic Markov Decision Processes. [论文链接]
- 作者: Yuval Emek (Technion - Israel Institute of Technology) · Ron Lavi (Technion) · Rad Niazadeh (Chicago Booth School of Business) · Yangguang Shi (Technion - Israel Institute of Technology)
Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration. [论文链接]
- 作者: Yao Liu (Stanford University) · Adith Swaminathan (Microsoft Research) · Alekh Agarwal (Microsoft Research) · Emma Brunskill (Stanford University)
Off-Policy Interval Estimation with Lipschitz Value Iteration. [论文链接]
- 作者: Ziyang Tang (UT Austin) · Yihao Feng (UT Austin) · Na Zhang (Tsinghua University) · Jian Peng (University of Illinois at Urbana-Champaign) · Qiang Liu (UT Austin)
Provably adaptive reinforcement learning in metric spaces. [论文链接]
- 作者: Tongyi Cao (University of Massachusetts Amherst) · Akshay Krishnamurthy (Microsoft)
Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model. [论文链接]
- 作者: Alex Lee (UC Berkeley) · Anusha Nagabandi (UC Berkeley) · Pieter Abbeel (UC Berkeley & covariant.ai) · Sergey Levine (UC Berkeley)
- website
- code
- 深度强化学习（RL）算法可以使用大容量深度网络直接从图像观察中学习。但是，这些高维度的观察空间在实践中提出了许多挑战，因为策略现在必须解决两个问题：表示学习和任务学习。在这项工作中，我们通过显式学习可以加速从图像进行强化学习的潜在表示，分别解决这两个问题。我们提出了stochastic latent actor-critic（SLAC）算法：一种样本有效且高性能的RL算法，用于直接从高维图像输入中学习复杂连续控制任务的策略。SLAC提供了一种新颖且有原则的方法，通过学习紧凑的潜在表示，然后在模型学到的潜在空间中执行RL，将随机顺序模型和RL统一为一个方法。我们的实验评估表明，在一系列困难的基于图像的控制任务上，我们的方法在最终性能和样本效率方面均优于无模型和基于模型的替代方法。
Inverse Reinforcement Learning from a Gradient-based Learner. [论文链接]
- 作者: Giorgia Ramponi (Politecnico di Milano) · Gianluca Drappo (Politecnico di Milano) · Marcello Restelli (Politecnico di Milano)
Efficient Planning in Large MDPs with Weak Linear Function Approximation. [论文链接]
- 作者: Roshan Shariff (University of Alberta) · Csaba Szepesvari (DeepMind / University of Alberta)