经验回放

离线强化学习(Offline RL)系列6: (采样效率) OfflineRL中的样本选择策略(Sample Selection Strategies)

论文原文 https offline rl neurips github io 2021 pdf 33 pdf 我们知道在强化学习中不同的样本选择对算法的影响比较大最典型的莫过于使用优先级经验回放 PER 技术提高算法对采样样本的选择效

离线强化学习系列博客 离线强化学习 Offline RL 经验回放 强化学习采样效率