论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning

2023-05-16

标题：Offline reinforcement learning with implicit Q-Learning
文章链接：Offline reinforcement learning with implicit Q-Learning
代码：ikostrikov/implicit_q_learning
openreview：Offline Reinforcement Learning with Implicit Q-Learning
发表：ICLR 2022
领域：离线强化学习（offline/batch RL）—— IL-Based
【本文为速览笔记，仅记录核心思想，具体细节请看原文】

摘要：Offline RL 需要协调两个相互冲突的目标：学得策略要尽量优于收集 Offline 数据集的 behavior policy，同时还要最小化与 behavior policy 的偏差以避免由于 distribution shift 而导致的错误。这种 trade-off 是至关重要的，因为当前大多数 Offline RL 方法需要在训练过程中查询 unseen 的动作的价值来改进策略，为了减少估计误差，这些 ( s , a ) (s,a) (s,a) 应当约束在 behavior policy 诱导的分布附近，或者规范它们价值靠近 behavior policy 的价值。我们提出了一种新的 Offline RL 方法，该方法不需要评估数据集之外的动作，但仍能通过泛化使学习到的策略大大超过数据集中的最佳行为。我们的工作的主要见解是，不去评估最新策略在 unseen 动作下的 Q Q Q 价值，而是通过将 状态下的最优动作的Q价值 看作一个 随机性由动作决定的随机变量 来隐式地估计 policy improvement 步骤，然后将随机变量的估计期望上界作为此状态下最优动作的 Q Q Q 价值，这利用了函数近似器的泛化能力来估计给定状态下的最佳可用动作的价值，而无需直接查询这个 unseen 动作的 Q Q Q 价值。我们的算法在拟合这个上期望值函数和将其备份为一个 Q Q Q 函数之间交替，没有任何显式的策略。然后我们通过 advantage-weighted behavioral cloning 来提取策略，这也避免了查询 OOD 样本的操作。我们将我们的方法称为 implicit Q-learning (IQL)，它易于实现，计算效率高，并且只需要额外训练一个具有非对称 L2 损失的 Critic。IQL 在 D4RL 数据集上表现出 SOTA 的性能，我们还演示了 IQL 在 Offline 初始化后使用 Online 交互实现了很强的 fine-turn 性能

文章目录

1. Offline RL 背景
2. 本文方法
- 2.1 思想
- 2.2 方法细节
3. 实验

1. Offline RL 背景

Offline RL 是这样一种问题设定：Learner 可以获取由一批 episodes 或 transitions 构成的固定交互数据集，要求 Learner 直接利用它训练得到一个好的策略，而且禁止 Learner 和环境进行任何交互，示意图如下

关于 Offline RL 的详细介绍，请参考 Offline/Batch RL简介
Offline RL 是近年来很火的一个方向，下图显示了 2019 年以来该领域的重要工作

过去的许多 Offline RL 方法都涉及到 Q Q Q 价值的评估，这就涉及到 distribution shift / extrapolation error 问题，如果是迭代的 multi-step off-policy 评估，还会受到 Iterative error exploitation 问题影响，在 one-step 论文中这些都有了详细分析。过去的方法从各种角度出发缓解这两个问题，可以如下分类

2. 本文方法

2.1 思想

在 Offline 数据集上进行 policy evaluation 时，Bellman 迭代中涉及的 OOD 的 a ′ a' a′ 会导致 distribution shift，过去 policy constrain 和 value constraint 类方法都无法完全回避此问题，one-step 类方法虽然可以回避，但失去了 multi-step DP 能力。本文通过 expectile regression 进行隐式的策略评估，在完全避免 OOD a ′ a' a′ 访问以避免 distribution shift 的同时，仍能执行 multi-step DP，从而学到更好的 Q ∗ Q^{*} Q∗ 估计，最后用 AWR 方法（一种优势加权模仿学习）从 Q ∗ Q^* Q∗ 估计中提取策略
本文提出的 IQL 本质上属于 IL-Bsaed 类方法，它学习价值估计只是为了进行优势加权 BC

2.2 方法细节

目标是只在数据集上所含的 ( s , a ) (s,a) (s,a) 上进行应用 Bellman optimal operator，从而回避 OOD 的 a ′ a' a′ （文章所谓的 “SARSA-like”）
L ( θ ) = E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) + γ max ⁡ a ′ ∈ A s.t. π β ( a ′ ∣ s ′ ) > 0 Q θ ^ ( s ′ , a ′ ) − Q θ ( s , a ) ) 2 ] (1) L(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}\right) \sim \mathcal{D}}\left[\left(r(s, a)+\gamma \max _{\substack{a^{\prime} \in \mathcal{A} \\ \text { s.t. } \pi_{\beta}\left(a^{\prime} \mid s^{\prime}\right)>0}} Q_{\hat{\theta}}\left(s^{\prime}, a^{\prime}\right)-Q_{\theta}(s, a)\right)^{2}\right] \tag{1} L(θ)=E(s,a,s′)∼D r(s,a)+γa′∈A s.t. πβ(a′∣s′)>0maxQθ^(s′,a′)−Qθ(s,a) 2 (1) 其中 Q θ ^ Q_{\hat{\theta}} Qθ^ 是 target 网络， β \beta β 是 behavior policy
作者如下使用 expectile regression（期望回归） 方式实现这个操作
L ( θ ) = E ( s , a , s ′ , a ′ ) ∼ D [ L 2 τ ( r ( s , a ) + γ Q θ ^ ( s ′ , a ′ ) − Q θ ( s , a ) ) ] (2) L(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}, a^{\prime}\right) \sim \mathcal{D}}\left[L_{2}^{\tau}\left(r(s, a)+\gamma Q_{\hat{\theta}}\left(s^{\prime}, a^{\prime}\right)-Q_{\theta}(s, a)\right)\right] \tag{2} L(θ)=E(s,a,s′,a′)∼D[L2τ(r(s,a)+γQθ^(s′,a′)−Qθ(s,a))](2) 其中 L 2 τ ( u ) = ∣ τ − 1 ( u < 0 ) ∣ u 2 L_{2}^{\tau}(u)=|\tau-\mathbb{1}(u<0)| u^{2} L2τ(u)=∣τ−1(u<0)∣u2 是一个非对称 L2 损失，如下所示

当 τ = 0.5 \tau=0.5 τ=0.5 时 L 2 0.5 L_{2}^{0.5} L20.5 退化为 MSE； τ \tau τ 越接近 1，模型就越倾向拟合那些 TD error 更大的 transition，从而使 Q Q Q 估计靠近数据集上的上界；当 τ → 1 \tau\to 1 τ→1 时可认为得到了 Q ∗ Q^* Q∗
直接使用 (2) 的问题在于引入了环境随机性 s ′ ∼ p ( ⋅ ∣ s , a ) s'\sim p(·|s,a) s′∼p(⋅∣s,a)，一个大的 TD target 可能只是来自碰巧转入的 “好状态”，即使这个概率很小，也会被 expectile regression 找出来，导致 Q Q Q 价值高估。为此作者又学习了一个独立的 V V V 价值
L V ( ψ ) = E ( s , a ) ∼ D [ L 2 τ ( Q θ ^ ( s , a ) − V ψ ( s ) ) ] (3) L_{V}(\psi)=\mathbb{E}_{(s, a) \sim \mathcal{D}}\left[L_{2}^{\tau}\left(Q_{\hat{\theta}}(s, a)-V_{\psi}(s)\right)\right] \tag{3} LV(ψ)=E(s,a)∼D[L2τ(Qθ^(s,a)−Vψ(s))](3) 这里 V ψ ( s ) V_\psi(s) Vψ(s) 会近似 max ⁡ Q θ ^ ( s , a ) \max Q_{\hat{\theta}}(s,a) maxQθ^(s,a)，然后使用如下 MSE loss 来消除 s ′ s' s′ 的随机性
L Q ( θ ) = E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) + γ V ψ ( s ′ ) − Q θ ( s , a ) ) 2 ] (4) L_{Q}(\theta)=\mathbb{E}_{\left(s, a, s^{\prime}\right) \sim \mathcal{D}}\left[\left(r(s, a)+\gamma V_{\psi}\left(s^{\prime}\right)-Q_{\theta}(s, a)\right)^{2}\right] \tag{4} LQ(θ)=E(s,a,s′)∼D[(r(s,a)+γVψ(s′)−Qθ(s,a))2](4) 总的来看，就是使用 (3) (4) 实现 (2)，达成 (1) 的思想，这里 (3) (4) 可以多步迭代计算实现 multi-step DP，且整个过程不需要访问 a ’ a’ a’
价值收敛得到 Q ∗ Q^* Q∗ 后，直接用 AWR 方法，通过最大化下式来提取策略
L π ( ϕ ) = E ( s , a ) ∼ D [ exp ⁡ ( β ( Q θ ^ ( s , a ) − V ψ ( s ) ) ) log ⁡ π ϕ ( a ∣ s ) ] L_{\pi}(\phi)=\mathbb{E}_{(s, a) \sim \mathcal{D}}\left[\exp \left(\beta\left(Q_{\hat{\theta}}(s, a)-V_{\psi}(s)\right)\right) \log \pi_{\phi}(a \mid s)\right] Lπ(ϕ)=E(s,a)∼D[exp(β(Qθ^(s,a)−Vψ(s)))logπϕ(a∣s)] 其中 β ∈ [ 0 , ∞ ) \beta\in[0,\infin) β∈[0,∞) 是一个逆温度系数，取值较小时类似 BC；取值较大时会试图做加权 BC 来恢复 max ⁡ Q θ ^ ( s , a ) \max Q_{\hat{\theta}}(s,a) maxQθ^(s,a)，注意这个过程也无需访问 a ′ a' a′
将上诉过程总结为如下伪代码

注意这里 “策略评估” 和 “策略提取” 是互相解耦的，提取出的策略不会以任何方式影响值函数，因此二者可以同时执行，也可在评估完成后执行，个解耦思路也出现了后来的 POR 方法中。另外，本文使用 Clipped Double Q-Learning 来缓解 Q 价值的高估

3. 实验

在 MuJoCo 的连续控制任务和 Ant Maze 任务上测试结果如下
1. 这里选择的 MuJoCo 数据中都有相当一部分接近最优的轨迹，奖励比较密集，适合于 one-step 和简单 BC，这时 IQL 能取得相媲美的结果；
2. Antmaze、kitchen 和 adroit 环境中轨迹质量都比较差，需要 agent 具有较强的次优轨迹拼接能力，这时 IQL 通过执行 multi-step DP 能得到更好的 Q ∗ Q^* Q∗ 估计，次优轨迹拼接能力更强，远超过 DT、one-step 等方法；由于更好地缓解了 distribution shift，超过 TD3+BC 和 CQL 等约束类方法
3. IQL 在训练时间上也有优势
作者在 AntMaze 环境上检查了 expectile regression 中超参数 τ \tau τ 的影响，如下

我个人感觉这里 τ \tau τ 如果设置过大很可能出现价值高估，另外针对 expectile regression 学得 Q ∗ Q^* Q∗ 的证明请参考原文
由于 IQL 初始 offline 训练性能良好，且其使用的 weighted BC 式策略提取器在 online fine-turn 过程中通常由于其他类型的策略约束，IQL 也具有很好的 online fine-turn 能力，如下

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

offline

IQL

Reinforcement

Learning

with

论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning 的相关文章

X-Pack的machine learning

如何使用X Pack的machine learning 最近在使用X Pack中的机器学习功能 xff0c 主要的就是利用非监督的时间序列模型 xff0c 用来检测流量的变化 xff0c 关于X Pack这块的文章好像可以参考的比较少 xf
Joint state with name: “base_l_wheel_joint” was received but not found in URDF

ROS melodic下运行出现 WARN xff1a Joint state with name base l wheel joint was received but not found in URDF 原因是在robot描述文件URD
Ubuntu20.04下编译安装ORBSLAM2_with_pointcloud_map总结

与此物大战六个小时 xff0c 终于解决所有问题 xff0c 写此短文记录一下一在github上下载源码后 xff0c 解压缩 xff0c 如下进行g2o with orbslam2的编译 1 报错信息 xff1a ORBSLAM2
验证手机号身份证号邮箱号

public class ValidateUtil 验证手机号格式是否正确 param phone return public static boolean isMobilePhone String phone if StringUtils
Oracle统计多张表的Count数的和

需求描述 Table1 job1 job1 id name status other column 1 file1 process 2 file2 failed 3 file3 success Table2 job2 job2 id nam
Eclipse 在没有互联网连接的 PC 上间歇性挂起

我从 Eclipse 3 2 开始就遇到过这个问题但在较新的版本中这个问题出现得更频繁每当我访问某些配置菜单项或 Eclipse 解析包含指向某个 Internet URL 的 xmlns 变量的 XML 文件时 Eclipse ID
在 Linux 中离线安装 r 中的 stringi 软件包时出现 icudt 错误

我已经在我的系统 RedHat Linux 7 中下载了 stringi 1 4 3 tar gz 软件包但是当我尝试离线安装时出现如下错误执行停止 icudt 下载失败停止错误包 stringi 配置失败这是一个新环境Red
Node 提供的 ejs 文件可以使用离线引导吗？

我是节点和全栈开发的新手希望我正确地提出这个问题而不是粗心或冒犯您的特定理解水平我的开发环境已连接互联网但生产环境不会连接我想将 bootstrap css 与节点一起使用 Apache httpd 不是生产环境中的一个选项本地
获取本地文件的内容而不上传[重复]

这个问题在这里已经有答案了我正在编写一个离线网络应用程序允许用户选择本地文件修改它然后也在本地保存副本是否可以在没有任何服务器的情况下我可以上传文件并返回其base64 但它不是离线的应用程序只需要在 Google Chrom
iPhone 的缓存/离线地图？

我想在我的应用程序中使用地图以便尽可能减少流量完美的解决方案是缓存地图切片我知道谷歌地图许可证是不可能的我查看了 OpenStreetMaps 这似乎是一个很好的解决方案下一个 SDK 我发现的唯一一个来自 CloudMade
HTML5仅在离线时使用缓存

我开始使用HTML5缓存查看包含一个 css 文件和两个 js 文件的简单 HTML 页面我的问题是无论我是否离线都会使用缓存但是我只是想在离线时使用缓存有谁知道如何解决这个问题索引 html文件清单应用程序缓存清单文件 CA
创建一个独立的离线 HTML5 应用程序以及嵌入其资源的最佳方法

我正在尝试创建一个 HTML5 文档该文档可以通过电子邮件发送给人们其中包含运行它所需的所有标记 js css 和图像我知道描述离线过程的文章例如http diveintohtml5 info offline html http d
如何在离线模式下使用 SBT 进行构建

相当于什么mvn o在SBT 当我检查我的 ivy 存储库时我可以看到依赖项 jarcache groupId artifactId jars 当我尝试在没有互联网连接的情况下构建它时它仍然会这样做Resolving 事情并显示未解决的
阻止离线 iPhone Web 应用程序在 Safari 中打开链接

我正在开发一个可以在离线模式下与移动 Safari 配合使用的网站我可以将其添加到主屏幕上并从那里加载但是一旦从主屏幕打开单击某些链接将跳出应用程序并在移动 safari 中打开尽管我在所有链接单击上阻止了 Default 该应用
将数据保存在离线应用程序 React Native 中

我想使用 React Native 为儿童离线创建一个字母表应用程序我想问你存储每个字母数据的最佳方式是什么例如字母 ID 字母 NAME 字母 IMG SRC 等我考虑过使用JSON 但我们也决定向您询问一下也许有更好的方法如
实现 AVAssetDownloadURLSession 下载 HLS 流时出错

我正在尝试为流应用程序实现离线模式目标是能够在用户的设备上下载 HLS 流以便即使用户离线时也可以观看流我最近偶然发现本教程 https developer apple com library content documentatio
使用 sqlite 离线存储数据的 Web 表单应用程序

我有一个 asp net Web 表单应用程序它在远程服务器上使用 sql server 2005 所有控件均使用 linq to sql 绑定我正在尝试提供完整的离线功能所以我想知道是否可以像 sql server db 一样创建一
Osmdroid：如何从我自己的位图（图块）创建和加载地图？

我开始使用 Osmdroid 我想使用这项技术来显示有关 F1 赛道的地图我有一张大图片我可以将它切割成更小的图块我可以修改osmdroid库来上传这些图片吗我想将这些位图图块保存在我的资产文件夹中我非常不知道如何做到这一点
在没有互联网连接的情况下使用 cabal 安装 Haskell 软件包

我有一台根本无法访问互联网的机器我使用通过随身碟从另一台机器获得的安装程序在其上安装了 Haskell 平台现在我想安装这个包repa在我的家用机器上无法访问互联网我该怎么做呢我的家用计算机运行的是 Linux Debian 我的
为什么缓存清单在桌面上按预期工作时可能无法让移动 Safari 缓存站点？

我正在本地玩一个简单的网络应用程序但不太明白为什么它在 iPhone 上没有正确缓存我正在服务一个 manifest文件具有正确的 MIME 类型并且当我在桌面 Safari Chrome 和 Firefox 上打开或关闭本地服务器时

随机推荐

tepedef和define的区别

xfeff xfeff 1 xff1a typedef 可以简化复杂的类型声明 2 xff1a 定义与平台无关的类型 3 xff1a 可以与 struct 结合使用 4 xff1a typedef 和 define 执行时间不同关键字ty
如何让虚拟机里的Ubuntu通过连接手机USB数据线上网

目录一前言二 Windows联网方法三 Ubuntu联网方法一前言最近遇到了这样一个问题 xff0c 有一台台式机 xff0c 地插网口无法访问外网 xff0c 周边也没有无线路由器 xff0c 要访问外网 xff0c 该如何
老的Struts项目还在维护。但新的项目开发，更多转向了Spring MVC

在Java后端开发中 xff0c MVC模型还是主流而Struts作为一个MVC框架 xff0c 单从技术上来说 xff0c 还是很优秀的但是 xff0c 现在Spring实在是太强势了 xff0c 越来越成为Java开发中的一站式
从Windows走入Docker（四）如何使用Docker Desktop的快速5步教程

学习自www docker com 步骤1 xff1a 使用本地Web服务器在不设置IIS的情况下运行IIS 如果您以前没有运行过Docker xff0c 这里有一个快速的方法来了解Docker在工作中的力量首先 xff0c 确保您正在
树莓派4B基于OpenCV的C++环境的串口通信

Python微信订餐小程序课程视频 https blog csdn net m0 56069948 article details 122285951 Python实战量化交易理财系统 https blog csdn net m0 5606
Kubernetes学习笔记-了解kubernetes机理-同节点／不同节点pod通信20220723

一了解运行中的pod是什么当创建一个pod是运行的是docker xff0c 可以创建一个pod容器 xff0c ssh到运行的pod工作节点 xff0c 查看运行的docker容器 kubectl run nginx image 61
程序调用动态库，编译通过，调用动态库函数运行出现undefined symbol错误

编了一个动态库 xff0c 写测试程序去调用动态库 xff0c 程序编译通过 xff0c 调用动态库里函数出错 xff0c 通过加上动态库相关依赖库以及 extern C 声明解决该错误以下 xff0c 详细说明解决经过 xff1a 首先
字节跳动面试题9/2

一面 xff08 2020 07 17 70min 1 什么是内存对齐 xff0c 为什么需要内存对齐 2 C 43 43 中哪些函数不能是虚函数 xff0c 友元函数可不可以是虚函数 3 析构函数 4 TCP拥塞控制 5 什么是动态规划
高频面试点：静态链接库与动态链接库

库是写好的现有的 xff0c 成熟的 xff0c 可以复用的代码现实中每个程序都要依赖很多基础的底层库 xff0c 不可能每个人的代码都从零开始 xff0c 因此库的存在意义非同寻常本质上来说库是一种可执行代码的二进制形式 xff0c
格林第一恒等式的应用(两个梯度乘积体积分）

应用 xff1a 两个梯度相乘体积分的转化 xff1a
OLAP分析引擎Druid配置文件详解（三）：coordinator配置文件

摘要 xff1a 本文是Druid配置文件系列博文的第三篇 xff0c 之前的文章已经介绍了Druid配置文件整体的组织结构以及公共配置文件 xff0c 接下来将逐个介绍Druid的五大组件 xff0c 本文是第一个组件Coordinato
解决报错之------curl: (7) Failed to connect to gitee.com port 443: Operation timed out

电脑 xff1a Macos 10 15 7 现象 xff1a 终端中下载Homebrew时遇到了如题的报错解决方法 xff1a 1 手动下载安装脚本 2 修改脚本文件权限 3 手动运行脚本 1 先用浏览器访问Homebrew安装路径的地
cordova打包app热更新问题

定义 xff1a 基于 cordova 框架能将web应用 js html css 图片等打包成 App 当 App 在终端上安装后 xff0c 不需要重新下载app xff0c 实现内壳更新原理 xff1a 1 在项目根目录的conf
net.sf.json包的json使用时，报JSON keys must be Strings的问题

在spring boot的项目中 xff0c 由于二次序列化 xff0c fastjson解析数据落盘至HDFS路径时 xff0c 会造成反斜杠换用net sf json json可以解决这个问题但是net sf json json对于
Maven 教程 -Caused by: java.lang.ClassNotFoundException: org.apache.maven.plugin.surefire.SurefireRepo

WARNING Error injecting org apache maven plugin surefire SurefirePlugin java lang TypeNotPresentException Type org apach
docker修改默认存储存储路径 The "graph" config file option is deprecated. Please use "data-root" instead.

docker修改默认存储路径默认路径在 var lib docker 目录下但是空间比较小修改成自己的指定路径原参数 graph 过期了使用data root路径可以使用 dockerd 查看日志 nbsp nbsp nbsp 1
[随笔]2019省电赛无人机题（B题）总结

2019 8 7 2019 8 10在江苏赛区参加了省电子设计竞赛 xff0c 这次也是省电赛和全国电赛重合的一年选择的题目是无人机题先说结果吧 xff0c 直接白给了 xff0c 挺遗憾的电赛结束挺久了 xff0c 作为一个从飞行器设计转
强化学习拾遗 —— 再看奖励函数

因为想申请 CSDN 博客认证需要一定的粉丝量 xff0c 而我写了五年博客才 700 多粉丝 xff0c 本文开启关注才可阅读全文 xff0c 很抱歉影响您的阅读体验参考 xff1a Richard S Sutton Reinforce
论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation

标题 xff1a Offline RL Without Off Policy Evaluation文章链接 xff1a Offline RL Without Off Policy Evaluation代码 xff1a davidbrandf
论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning

标题 xff1a Offline reinforcement learning with implicit Q Learning文章链接 xff1a Offline reinforcement learning with implicit

论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning

文章目录

1. Offline RL 背景

2. 本文方法

2.1 思想

2.2 方法细节

3. 实验

论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning 的相关文章

随机推荐

热门标签