reinforcementlearning

在 Google Colaboratory 上运行gym-gazebo

我正在尝试在 Google Colaboratory 上运行gym gazebo 在Colab上运行gazebo服务器没有gui的gazebo 有问题显示警告 Unable to create X window Rendering wi

robolectric ROS googlecolaboratory reinforcementlearning openaigym

OpenAI Gymnasium，有没有算法支持的库？

OpenAI 发布了一个名为 Gymnasium 的新库它应该取代 Gym 库有许多库都实现了支持健身房环境的强化学习算法但是 Gymnasium 的界面略有变化有没有支持 Gymnasium 的算法库我尝试了 CleanRL K

reinforcementlearning openaigym openaiapi

Java中的马尔可夫模型决策过程

我正在用 Java 编写辅助学习算法我遇到了一个我可能可以解决的数学问题但由于处理量很大我需要一个最佳解决方案话虽这么说如果有人知道一个优化的库那就太棒了但语言是 Java 所以需要考虑到这一点这个想法相当简单对象将存储变

Q-learning 和价值迭代有什么区别？

Q learning 与强化学习中的值迭代有何不同我知道 Q learning 是无模型的训练样本是过渡 s a s r 但是既然我们知道 Q 学习中的转换和每个转换的奖励那么它与基于模型的学习不一样吗在基于模型的学习中我们知道

machinelearning artificialintelligence reinforcementlearning QLearning

Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro

python machinelearning Pytorch reinforcementlearning backpropagation

分布式张量流中的并行进程

我有带有训练参数的张量流神经网络它是代理的策略网络正在核心程序的主张量流会话的训练循环中进行更新在每个训练周期结束时我需要将该网络传递给几个并行进程工作人员这些进程将使用它来从代理策略与环境的交互中收集样本我需要并行执行因

openaigym env.P，AttributeError“TimeLimit”对象没有属性“P”

我目前正在阅读 Sudharsan Ravichandiran 的 Python 强化学习实践在我遇到的第一个示例中遇到了以下 AttributeError AttributeError TimeLimit object has no

python python3x reinforcementlearning openaigym

具有可变动作的强化学习

All the 强化学习 http en wikipedia org wiki Reinforcement learning我读过的算法通常应用于具有固定数量操作的单个代理是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策例如

machinelearning reinforcementlearning planning

使用强化学习训练神经网络

我了解前馈神经网络的基础知识以及如何使用反向传播算法训练它们但我正在寻找一种可以用于通过强化学习在线训练 ANN 的算法例如车杆向上摆动 http www google com search q cart 20pole 20swin

强化学习中的状态依赖动作集

人们如何处理不同州的法律行动不同的问题就我而言我总共有大约 10 个诉讼这些法律诉讼不重叠这意味着在某些州相同的 3 个州始终是合法的而这些州在其他类型的州永远不合法我也有兴趣看看如果法律诉讼重叠解决方案是否会有所不同对于

machinelearning reinforcementlearning QLearning

epsilon 贪婪 q 学习中的 epsilon 和学习率衰减

我知道 epsilon 标志着探索和利用之间的权衡一开始你希望 epsilon 较高这样你才能取得大的进步并学到东西当您了解未来的奖励时 epsilon 应该衰减以便您可以利用您发现的更高的 Q 值然而在随机环境中我们的学习

machinelearning reinforcementlearning QLearning

神经网络不学习（损失保持不变）

我和我的项目合作伙伴目前在我们最新的大学项目中面临着一个问题我们的任务是实现一个玩 Pong 游戏的神经网络我们将球的位置球的速度和球拍的位置提供给我们的网络并具有三个输出向上向下 DO NOTHING 当玩家获得 11 分后

python tensorflow Keras neuralnetwork reinforcementlearning

ValueError：给定的 numpy 数组中至少有一个步幅为负，并且当前不支持具有负步幅的张量

我正在使用 RL 编写自动驾驶代码我正在使用稳定的基线3和开放的人工智能健身房环境我在 jupyter 笔记本中运行以下代码但出现以下错误 Testing our model episodes 5 test the environme

python reinforcementlearning openaigym stablebaselines

Q 学习代理的学习率

学习率如何影响收敛速度和收敛本身的问题如果学习率恒定 Q函数是否会收敛到最优值或者学习率必须衰减以保证收敛学习率表示解决问题所采取的步骤的大小 It 不宜太大一个数字因为它可能会在最小值周围持续振荡并且它不宜太小否则将需要大量时

machinelearning reinforcementlearning QLearning

强化学习+优化：如何做得更好？

我正在学习如何使用强化学习进行优化我选择的问题是最大匹配 https en wikipedia org wiki Maximum cardinality matching在二分图中因为我可以轻松计算出真正的最优值回想一下图中的匹配是

价值迭代和策略迭代有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在强化学习中有什么区别策略迭代 and 价值迭代据我了解在价值迭代中您使用贝尔曼方程来求解最优策略而在策略迭代中您随机选择一个

machinelearning reinforcementlearning markovmodels valueiteration

Q-learning 和带有贪婪选择的 SARSA 等价吗？

Q learning 和 SARSA 之间的区别在于 Q learning 比较当前状态和最佳可能的下一个状态而 SARSA 则将当前状态与实际的下一个状态进行比较如果使用贪婪选择策略即 100 的时间选择具有最高动作值的动作那么

reinforcementlearning QLearning sarsa

Ray on slurm - 初始化问题

我写这篇文章是因为自从我使用 slurm 以来我一直无法正确使用 ray 每当我使用命令时 ray init trainer A3CTrainer env my env 我已经在tune上注册了我的env 程序崩溃并显示以下消息 core

reinforcementlearning slurm Ray rllib

需要下一状态传播进行反向传播的神经网络强化学习

我正在尝试构建一个包含卷积和 LSTM 使用 Torch 库的神经网络以通过 Q 学习或优势学习进行训练这两者都需要在更新状态 T 的权重之前通过网络传播状态 T 1 必须进行额外的传播会降低性能这很糟糕但不是too坏的然而问

neuralnetwork reinforcementlearning torch LSTM temporaldifference

稳定基线3库中的“确定性= True”是什么意思？

我正在尝试应用稳定的baselines3库中的PPO算法https stable baselines3 readthedocs io en master https stable baselines3 readthedocs io en m

python3x reinforcementlearning stablebaselines