TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？

2023-12-21

以下问题中引用的所有链接描述均来自 2021 年 5 月 31 日。

我按照以下版本训练了一个深度 Q 网络TF 特工教程 https://www.tensorflow.org/agents/tutorials/1_dqn_tutorial关于自定义问题。现在我想向它提供一些手工观察结果，看看它建议采取什么行动。我有一些实用函数来创建我在 PyEnvironment 中使用的这些特征向量。但是，我不确定如何转换这些位以输入网络。

我想要的是类似以下内容：

在初始状态下馈送，并查看来自网络的推荐操作。
接下来手动改变口味，看看网络推荐什么。
等等...

我的环境有一个随机组件，因此我想手动修改环境状态，而不是让代理显式地采用环境中的路径。

为了在这个问题上取得进展，我一直在研究这个政策辅导 https://www.tensorflow.org/agents/tutorials/3_policies_tutorial。看起来，我的用例可能类似于“随机 TF 策略”部分或下面的“Actor 策略”部分。然而，在我的用例中，我有一个已加载的代理，并且有 Python（非 TF）观察、时间规范和操作规范。驱动我的网络从这些组件中产生操作的理想方法是什么？

这是我尝试过的：

saved_policy = tf.compat.v2.saved_model.load(policy_dir)
# get_feat_vector returns an numpy.ndarray
observation = tf.convert_to_tensor(state.get_feat_vector(), dtype=tf.float32)
time_step = ts.restart(observation)
action_step = saved_policy.action(time_step)

以及相关的错误消息：

File "/home/---/.local/lib/python3.8/site-packages/tensorflow/python/saved_model/function_deserialization.py", line 267, in restored_function_body
    raise ValueError(
ValueError: Could not find matching function to call loaded from the SavedModel. Got:
  Positional arguments (2 total):
    * TimeStep(step_type=<tf.Tensor 'time_step:0' shape=() dtype=int32>, reward=<tf.Tensor 'time_step_1:0' shape=() dtype=float32>, discount=<tf.Tensor 'time_step_2:0' shape=() dtype=float32>, observation=<tf.Tensor 'time_step_3:0' shape=(170,) dtype=float32>)
    * ()
  Keyword arguments: {}

Expected these arguments to match one of the following 2 option(s):

Option 1:
  Positional arguments (2 total):
    * TimeStep(step_type=TensorSpec(shape=(None,), dtype=tf.int32, name='step_type'), reward=TensorSpec(shape=(None,), dtype=tf.float32, name='reward'), discount=TensorSpec(shape=(None,), dtype=tf.float32, name='discount'), observation=TensorSpec(shape=(None, 170), dtype=tf.float32, name='observation'))
    * ()
  Keyword arguments: {}

Option 2:
  Positional arguments (2 total):
    * TimeStep(step_type=TensorSpec(shape=(None,), dtype=tf.int32, name='time_step/step_type'), reward=TensorSpec(shape=(None,), dtype=tf.float32, name='time_step/reward'), discount=TensorSpec(shape=(None,), dtype=tf.float32, name='time_step/discount'), observation=TensorSpec(shape=(None, 170), dtype=tf.float32, name='time_step/observation'))
    * ()
  Keyword arguments: {}

我相信您的问题可能与加载和保存模型的方式有关。 TF-Agents 建议使用 PolicySaver（请参阅here https://www.tensorflow.org/agents/tutorials/10_checkpointer_policysaver_tutorial#policy_saver）。所以也许尝试运行类似的代码

tf_agent = ...
tf_policy_saver = policy_saver.PolicySaver(policy=tf_agent.policy)

... # train agent

tf_policy_saver.save(export_dir=policy_dir_path)

然后加载并运行模型：

eager_py_policy = py_tf_eager_policy.SavedModelPyTFEagerPolicy(
    policy_dir, env.time_step_spec(), env.action_spec())

policy_state = eager_py_policy.get_initial_state(1)
time_step = env.reset()
action_step = eager_py_policy.action(time_step, policy_state)
time_step = env.step(action_step.action)
policy_state = action_step.state

或者您想对环境和观察进行任何手动操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

reinforcementlearning

TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？的相关文章

ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
如何将张量推送到 TensorFlow 队列并从另一个进程中提取它们？

我有一个 TensorFlow 集群已启动并正在运行我正在尝试使用一个客户端进程将数据入队并将其从另一进程中出队我无法让它工作我做错了什么这是我的推送数据的程序 queue push py import tensorflow as
Tensorflow DecodeJPEG：预期图像（JPEG、PNG 或 GIF）以“\000\000\000\000\000\000\000\00”开头的格式未知

我正在循环浏览图像文件夹这种情况不断发生 tensorflow python framework errors impl InvalidArgumentError 预期的图像 JPEG PNG或GIF 以 000 000 000 000
在 keras 中使用条件实现自定义损失函数

我需要一些有关 keras 损失函数的帮助我一直在使用 Tensorflow 后端在 keras 上实现自定义损失函数我已经在 numpy 中实现了自定义损失函数但如果它可以转换为 keras 损失函数那就太好了损失函数采用数据帧
监控培训课程如何运作？

我试图理解使用之间的区别tf Session and tf train MonitoredTrainingSession 以及我可能更喜欢其中之一似乎当我使用后者时我可以避免许多杂务例如初始化变量启动队列运行程序或设置文件编写器以
使用 Mac M1 在 Docker 容器内的 pip 安装中找不到 Tensorflow

我正在尝试使用新的 Mac M1 运行一些项目这些项目已经在英特尔处理器上运行并被使用英特尔的其他开发人员使用我无法构建这个简单的 Dockerfile FROM python 3 9 RUN python m pip install
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
Keras Predict_classes 方法返回“列表索引超出范围”错误

我对 CNN 和机器学习总体来说是新手并且一直在尝试遵循 TensorFlow 的图像分类教程现在可以找到Google Colabhere https colab research google com drive 1gwZp7 t
从图中删除节点或重置整个默认图

使用默认全局图时是否可以在添加节点后将其删除或者将默认图重置为空当我在 IPython 中交互地使用 TF 时我发现自己必须反复重新启动内核如果可能的话我希望能够更轻松地尝试图表更新 11 2 2016 tf reset de
如何安装libcusolver.so.11

我正在尝试安装 Tensorflow 但它要求 libcusolver so 11 而我只有 libcusolver so 10 有人可以告诉我我做错了什么吗这是我的 Ubuntu nvidia 和 CUDA 版本 uname a Lin
跨多个 GPU/机器的 TF-Slim 的配置/标志

我很好奇是否有关于如何使用部署 model deploy py 在多台机器上的多个 GPU 上运行 TF Slim models slim 的示例该文档非常好但我缺少一些内容具体来说需要为worker device和ps devic
使用输入管道时如何替换 feed_dict？

假设您有一个已与feed dict到目前为止将数据注入到图表中每隔几个时期我就会通过将任一数据集的一批数据输入到我的图表中来评估训练和测试损失现在出于性能原因我决定使用输入管道看看这个虚拟示例 import tensorflow
在 Google Colaboratory 上运行gym-gazebo

我正在尝试在 Google Colaboratory 上运行gym gazebo 在Colab上运行gazebo服务器没有gui的gazebo 有问题显示警告 Unable to create X window Rendering wi
Tensorflow GPU 设置：PyCharm 上的 CUDA 错误

我在 Python3 MacOSX El Capitan 上安装了 TF 0 8 当为 TF 运行简单的测试代码时我收到以下消息 ImportError dlopen Library Frameworks Python framework
Tensorflow：为什么 tf.case 给我错误的结果？

我正在尝试使用tf case https www tensorflow org api docs python tf case https www tensorflow org api docs python tf case 有条件地更新张
如何使用 Tensorflow 中的 Hugging Face Transformers 库对自定义数据进行文本分类？

我正在尝试使用 Hugging Face Transformers 库提供的不同变压器架构对自定义数据 csv 格式进行二进制文本分类我正在用这个张量流博客文章 https blog tensorflow org 2019 11 hug
Tensorboard 和 Dropout 层

我有一个非常基本的查询我制作了 4 个几乎相同差异在于输入形状的 CNN 并在连接到全连接层的前馈网络时合并了它们几乎相同的 CNN 的代码 model3 Sequential model3 add Convolution2D 32
Tensorflow：尽管数据中没有字符串，但使用 tflearn 时不支持将字符串转换为浮点数错误

我似乎无法在我的代码中找到错误其中有任何字符串被错误地转换为浮点数但它却给了我这个错误 W tensorflow core framework op kernel cc 958 Unimplemented Cast string to
有没有办法在bigquery中使用kmeans、tensorflow保存的模型？

我知道这有点愚蠢因为 BigQueryML 现在为 Kmeans 提供了良好的初始化尽管如此我还是需要在张量流中训练一个模型然后将其传递给 BigQuery 进行预测我保存了模型一切正常直到我尝试将其上传到 bigquery
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出

随机推荐

CSS 更改仅在 magento2 中部署命令后反映

现在我已经在magento2中创建了自定义主题每次我编写css时它都不会立即反映我已将模式更改为开发人员并且还禁用缓存在后端我给出了以下命令来反映我的自定义 CSS rm f var R rm f 酒吧静态 R php bi
为什么这个批处理变量即使设置后也不会改变？

echo off SET first 0 FOR N IN hello bye DO SET first 1 echo first echo N 看起来变量 first 总是0 为什么呢对于批处理文件变量在读取命令时会扩展因此只要fo
如何在 ELB 应用程序负载均衡器上将 HTTPS 重定向到 HTTP

在 Amazon 的 Classic Load Balancer 上您可以创建一条规则将 HTTPS 连接转发到 HTTP 通过将证书上传到负载均衡器并让服务器仅处理 http 来简化 SSL 和服务器配置我现在尝试使用亚马逊的新一代
Flutter Provider - 添加依赖于 Stream Provider 的 Proxy Provider

MultiProvider providers In this sample app CatalogModel never changes so a simple Provider is sufficient Provider create
如何使用 ffmpeg - libx265 获得无损编码

我想使用 ffmpeg 使用 x265 编码器无损地转换 HEVC mkv 视频中的 16 位灰度图像我使用 monochrome12 配置文件我的第一步是将图像转换为 yuv 格式 ffmpeg f image2 i C DATA F
从 VBA 调用自定义 Python COM 对象

我有一个 python 脚本我将其转换为 COM 服务器现在我想从 VBA Access 调用它我已经尝试过这个 Sub test Dim PyScript Dim var Set PyScript CreateObject Pyth
如何在Linux/Unix中实现GetThreadContext？

GetThreadContext 是一个 Windows API BOOL WINAPI GetThreadContext In HANDLE hThread Inout LPCONTEXT lpContext 我想知道如何在linux中实
Docker distroless 镜像如何将自定义证书添加到信任存储区？

gcr io distroless java 如何添加自定义pki证书 Distroless 镜像基于 Debian 9 因此您可以进行多阶段构建并执行如下操作 FROM debian AS build env Add CA files A
如何从 TensorFlow 数据集中提取数据/标签

有很多如何创建和使用 TensorFlow 数据集的示例例如 dataset tf data Dataset from tensor slices images labels 我的问题是如何以 numpy 形式从 TF 数据集中获取数据
WP 8.1 ISupportIncrementalLoading LoadMoreItemsAsync 不断被无休止地调用

我正在尝试使用以下示例来实现无限滚动 http www davidbritch com 2014 05 data virtualization using html http www davidbritch com 2014 05 data
const 变量的条件初始化

以下基本代码是一个相当大的过程的一部分 int x foo if x 0 x bar x没有在其他地方修改所以我可以这样做 const int x foo 0 bar foo But foo 是一个非常昂贵且复杂的函数因此由于性能原因以
光滑的轮播在初始化时加载错误的宽度

页面加载时在第一秒内第一张幻灯片在自行纠正之前仅占据屏幕的一半它导致了不愉快快速的加载体验如果我通过检查监视元素代码我可以看到内联宽度在页面加载后大约一秒钟更新有什么建议么我有同样的问题解决方案是从上一张幻灯片开始初始幻
如何从 Mongoose 填充查询中排除空值

我正在构建一个应用程序并且创建了 2 个模型 const UserSchema new Schema id Schema Types ObjectId account type String unique true email Strin
为什么使用 pyodbc 从 MSSQL 获取数据时出现此错误？

我正在使用 pyodbc 从 MSSQL 检索数据这是我正在使用的代码 import pyodbc server xxxxxxxx DEV database SandBox username zzzzzzz password xxxxxx
如何降低标签栏高度并显示在底部

谁能告诉如何减少标签栏的高度并在底部显示标签栏 Thanks 使用以下代码行更改高度这是我的 onCreate 方法中的最后一行 tabHost getTabWidget getChildAt 0 getLayoutParams heig
在 Android 上使用 Google Exoplayer 播放 HLS 流时出错

Google Exoplayer 是否 https github com google ExoPlayer https github com google ExoPlayer 支持Http直播了吗 Android 一般支持它但当我尝试在
如何在 SQLite 中显示 SQL 错误？

在 PHP 中使用 SQLite 因此使用 PDO 我有以下代码 try db new PDO sqlite C Program Files Spiceworks db spiceworks prod db echo Done br b q
预测序列中的下一个数字 Keras - Python

我是 python 和神经网络的新手我有一个用 Keras 编写的简单网络可以预测线性序列中的下一个数字 import numpy as np from keras models import Sequential from keras
如何在 WebSphere Application Server 6.0.2.23 中重命名应用程序服务器

我们正在重新调整运行 WebSphere 6 0 2 23 的应用程序服务器的用途我想重命名各种应用服务器以更好地反映其新角色如何重命名应用程序服务器看起来 wsadmin 可以做到这一点但我正在努力处理对象层次结构 IBM 示例脚
TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？

以下问题中引用的所有链接描述均来自 2021 年 5 月 31 日我按照以下版本训练了一个深度 Q 网络TF 特工教程 https www tensorflow org agents tutorials 1 dqn tutorial关于自

TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？

TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？ 的相关文章

随机推荐

热门标签

TF Agents：如何将伪造的观察结果输入经过训练的深度 Q 网络模型以检查它选择哪些操作？的相关文章