需要下一状态传播进行反向传播的神经网络强化学习

2024-01-21

我正在尝试构建一个包含卷积和 LSTM（使用 Torch 库）的神经网络，以通过 Q 学习或优势学习进行训练，这两者都需要在更新状态 T 的权重之前通过网络传播状态 T+1。

必须进行额外的传播会降低性能，这很糟糕，但不是too坏的;然而，问题是这里面涉及到各种状态。首先，Torch 的反向传播实现有一些效率捷径，这些捷径依赖于前向传播之后立即发生的反向传播，而额外的传播会造成混乱。我可以通过共享权重值的辅助克隆网络来解决这个问题，但我们遇到了第二个问题。

每个涉及 LSTM 的前向传播都是有状态的。当传播网络（T+1）可能改变了 LSTM 的内容时，如何更新 T+1 时的权重？我曾尝试查看 TD-Gammon 中对 TD 权重更新的讨论，但它对我来说很迟钝，而且无论如何都是前馈，而不是经常性的。

如何在 T 处更新网络的权重，而不必将网络推进到 T+1，或者如何将网络推进到 T+1，然后返回并调整权重，就好像它仍然是 T 一样？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

需要下一状态传播进行反向传播的神经网络强化学习的相关文章

如何修复：AttributeError：模块“neat”没有属性“config”

我正在浏览使用发现的 NEAT 神经网络 API 玩 flappybird 的 AI 的指南当我运行从 Github 下载的代码时出现错误 Traceback most recent call last File test py lin
Keras LSTM 密集层多维输入

我正在尝试创建一个 keras LSTM 来预测时间序列我的 x train 形状像 3000 15 10 示例时间步长特征 y train 形状像 3000 15 1 我正在尝试构建一个多对多模型每个序列 10 个输入特征产生 1
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
通过 Caffe 中的层提供数据的多种路径

我想在 Caffe 中构建一个网络其中传入的数据最初被分割分别通过同一组层最后使用 eltwise 层重新组合此后所有部件将作为一个斑点移动除了学习的参数之外数据并行移动的网络部分的层配置将是相同的有没有一种方法可以在 Ca
为什么平均百分比误差（mape）非常高？

我已获得代码掌握机器学习 https machinelearningmastery com time series prediction lstm recurrent neural networks python keras 我修改了mod
Caffe 多输入图像

我正在考虑实现一个 Caffe CNN 它接受两个输入图像和一个标签后来可能是其他数据并且想知道是否有人知道 prototxt 文件中执行此操作的正确语法它只是一个带有额外顶部的 IMAGE DATA 层吗或者我应该为每个层使用单独
使用 keras 澄清 Yolo v3 模型输出

我将 yolo v3 模型与 keras 一起使用该网络为我提供了形状如下的输出容器 1 13 13 255 1 26 26 255 1 52 52 255 所以我找到了这个link https www cyberailab com ho
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
Keras IndexError：索引超出范围

我是 Keras 新手我尝试在数据集上执行二进制 MLP 并且不断使索引超出范围但不知道为什么 from keras models import Sequential from keras layers core import Dens
Keras - Nan 总结直方图 LSTM

我使用 Keras 编写了一个 LSTM 模型并使用 LeakyReLU 高级激活 ADAM Optimizer with learning rate decay opt optimizers Adam lr 0 0001 beta 1
Keras 错误：预计会看到 1 个数组

当我尝试在 keras 中训练 MLP 模型时出现以下错误我使用的是 keras 版本1 2 2 检查模型输入时出错您输入的 Numpy 数组列表传递给您的模型的尺寸不是模型预期的尺寸预期的查看 1 个数组但得到以下 12859
Encog：BasicNetwork：无需预先构建数据集的在线学习

我正在尝试使用 encog 库作为强化学习问题的函数逼近器更准确地说我正在尝试启动并运行多层感知器 BasicNetwork 由于我的代理将根据我选择的任何 RL 算法以某种方式探索世界因此我无法预先构建任何 BasicNeuralD
如何使用 keras.backend.gradients() 获取梯度值

我试图获得 Keras 模型的输出相对于模型输入 x 而不是权重的导数似乎最简单的方法是使用 keras backend 中的梯度它返回梯度张量 https keras io backend https keras io backe
深度学习和传统的人工神经网络机器学习有什么区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能否简要解释一下两者之间的差异深度学习 https developer nvidia com deep learning和利用神经网
使用 R 上的反向传播神经网络模型生成预测会为所有观察返回相同的值

我正在尝试使用经过训练的反向传播神经网络在新数据集上使用神经网络包来生成预测我使用了计算函数但最终所有观察结果都得到相同的值我做错了什么 the data Var1 lt runif 50 0 100 sqrt data lt d
从 [tensorflow 1.00] 中的 softmax 层提取概率

使用张量流我有一个 LSTM 分类模型以 softmax 作为最终节点这是我的 softmax 层 with tf name scope Softmax as scope with tf variable scope Softmax
多输出回归问题的多重损失

所以我试图训练一个 CNN 模型来预测 4 个实值输出回归问题我尝试使用均方误差作为损失函数我的问题是我是否将输出层分支为 4 个不同的输出层其中有 4 个不同的输出层由于最后一层的权重是单独更新的 loss 4 MSE 确实可以使
AssertionError: d['w'] | 的值错误深度学习专业化

我正在完成深度学习专业的第一门课程其中第一个编程任务是从头开始构建逻辑回归模型由于这是我第一次从头开始构建模型而且我花了一些时间来消化高等数学所以我有很多错误其中我发现了一个我完全无法修复并且无法理解的问题这是一个断言错误说

随机推荐

graphql-spring-boot 上传二进制文件

我正在尝试上传 GraphQL 突变和图像作为应用程序表单数据 GraphQL 部分正在工作但我想保存上传的二进制文件并添加 GraphQL 数据的路径在 createGraphQLContext 中我可以访问 HttpServ
是否可以从 Fossil SCM 导出到其他 DVCS？

多年来我一直使用 Darcs 作为我唯一的 DVCS 前段时间我探索了我也喜欢的 Monotone 然而两者的主要问题是缺乏完整的托管解决方案 Fossil http www fossil scm org index html doc t
apache 模块 ap_log_perror 与 ap_log_error 处于不同的级别

我有一个 apache 模块可以记录一些行如果我登录ap log error并已设定LogLevel调试我看到了这条消息但是如果我尝试使用 ap log perror 我可以看到错误级别日志但调试日志不会显示似乎两者处于不同的级
如何使用响应式 UI 在单击按钮与按下按钮（按住）后触发不同的操作

我正在尝试实现一个 UI 控件用户可以单击按钮使物体稍微移动或者按住按钮并在按住按钮时使物体移动假设我有Task
如何将字符串拆分为视图的列？ [复制]

这个问题在这里已经有答案了我有一个专栏 full location id 在包含字符串的表中由分隔我需要在视图中将其分成 4 列 Test SplitColumn 并非每条记录full location id包含相同长度的 ids 有
linq to sql - 循环遍历表数据并设置值

我有一个表用户它有一列 ShowData 使用 linq sql 如何循环遍历每个用户并将每个用户的 ShowData 设置为 false thanks 创建 linq to sql 类设计器文件然后将用户表拖放到设计器界面上 u
尝试在 Windows 上 pip 安装软件包时访问被拒绝

如何设置python 3 7 0的路径我尝试了所有可能的方法但它仍然显示错误由于环境错误而无法安装软件包 WinError 5 访问被拒绝 c program files x86 python37 32 lib site packag
错误 - java.lang.IllegalArgumentException：URI 方案不是“文件”？

我在尝试访问字体文件时收到以下错误 011 08 31 12 12 42 704 ERROR PDFOutputHandler Unable to resolve Unicode font java lang IllegalArgument
如何从源代码构建 Nix 包？

我认为 NixOS 很棒但无法弄清楚如何从源代码构建包了解Nix 表达语言 https nixos wiki wiki Nix Expression Language不是问题而是知道要放入什么default nix为了构建一个包以
当“class B extends A”和“L <: A”时，为什么“List[B]”不是“Seq[L]”的子类型？

Having class A class B extends A 正确的写法是 val foo Seq A List B new B 出现错误时我会错过什么 def bar L lt A Seq L List B new B Error e
打印时多余空格

我已经阅读了一些 python 空白删除问题和答案但无法找到我正在寻找的内容这是一个小程序显示了该问题的具体示例我非常感谢你的帮助 import random math score random randint 200 800 ma
自动为 $fillable 属性赋值 (Laravel 4)

我正在尝试使用 Laravel 4 将数据从本地主机数据库同步到实时数据库除了列是动态的表之外一切正常所以在我的模型中我做了类似的事情
我可以根据条件禁用 ViewCell.ContextActions

您好我使用 Xamarin Forms ListView 我想知道是否可以根据特定绑定或后面的代码禁用上下文操作我在整个应用程序中使用一个 GroupedListView 但它根据用户正在执行的操作显示不同的数据有一个管理您的收藏夹
如何修复生产中的 502 Bad Gateway 错误（Nginx）？

当我尝试在数字海洋中托管的项目中上传大小约为 600MB 的大 csv 文件时它尝试上传但显示 502 Bad Gateway Error Nginx 该应用程序是一个数据转换应用程序这在本地工作时效果很好 sudo tail 30 v
javax.ejb.EJBException java.lang.IllegalStateException：无法检索 unitName 的 EntityManagerFactory

我正在使用 EJB 开发 JavaEE 应用程序我有一个名为Medico哪个代码是 Entity public class Medico implements Serializable private static final long
为什么我不需要导出/导入 TypeScript 接口？

我和我的同事一起创建了一个 Angular 5 应用程序我为所有界面创建了一个文件夹并按功能对它们进行分组但是我没有在它们上包含任何导出符号并且在使用它们时我永远不需要导入它们它们只是存在并且不会产生任何编译错误我喜欢这种方
“系统找不到文件 C:\ProgramData\Oracle\Java\javapath\java.exe”

我在 Windows 8 上使用 JDK 8u25 并且 Java 安装遇到问题我可以跑javac完全没问题但是正在运行java产生此错误消息 The system cannot find the file C ProgramData
在整个交易过程中始终使用“现在”的价值

我正在寻找在整个交易中使用一致的当前日期和时间值的指南我所说的事务大致指的是应用程序服务方法此类方法通常执行单个 SQL 事务至少在我的应用程序中是这样环境背景答案中描述的一种方法这个问题 https stackoverflow
Grails 客户端验证

您如果您如何使用 grails 管理客户端验证您使用插件还是使用 javascript 框架反映您的约束干杯我个人没有使用过它们但这两个插件可能会对您有所帮助 http grails org plugin javascript
需要下一状态传播进行反向传播的神经网络强化学习

我正在尝试构建一个包含卷积和 LSTM 使用 Torch 库的神经网络以通过 Q 学习或优势学习进行训练这两者都需要在更新状态 T 的权重之前通过网络传播状态 T 1 必须进行额外的传播会降低性能这很糟糕但不是too坏的然而问

需要下一状态传播进行反向传播的神经网络强化学习

需要下一状态传播进行反向传播的神经网络强化学习 的相关文章

随机推荐

热门标签

需要下一状态传播进行反向传播的神经网络强化学习的相关文章