Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Google Colaboratory 上运行gym-gazebo
我正在尝试在 Google Colaboratory 上运行gym gazebo 在Colab上运行gazebo服务器 没有gui的gazebo 有问题 显示警告 Unable to create X window Rendering wi
robolectric
ROS
googlecolaboratory
reinforcementlearning
openaigym
OpenAI Gymnasium,有没有算法支持的库?
OpenAI 发布了一个名为 Gymnasium 的新库 它应该取代 Gym 库 有许多库都实现了支持健身房环境的强化学习算法 但是 Gymnasium 的界面略有变化 有没有支持 Gymnasium 的算法库 我尝试了 CleanRL K
reinforcementlearning
openaigym
openaiapi
Java中的马尔可夫模型决策过程
我正在用 Java 编写辅助学习算法 我遇到了一个我可能可以解决的数学问题 但由于处理量很大 我需要一个最佳解决方案 话虽这么说 如果有人知道一个优化的库 那就太棒了 但语言是 Java 所以需要考虑到这一点 这个想法相当简单 对象将存储变
Q-learning 和价值迭代有什么区别?
Q learning 与强化学习中的值迭代有何不同 我知道 Q learning 是无模型的 训练样本是过渡 s a s r 但是 既然我们知道 Q 学习中的转换和每个转换的奖励 那么它与基于模型的学习不一样吗 在基于模型的学习中 我们知道
machinelearning
artificialintelligence
reinforcementlearning
QLearning
Pytorch ValueError:优化器得到一个空参数列表
当尝试创建神经网络并使用 Pytorch 对其进行优化时 我得到了 ValueError 优化器得到一个空参数列表 这是代码 import torch nn as nn import torch nn functional as F fro
python
machinelearning
Pytorch
reinforcementlearning
backpropagation
分布式张量流中的并行进程
我有带有训练参数的张量流神经网络 它是代理的 策略 网络正在核心程序的主张量流会话的训练循环中进行更新 在每个训练周期结束时 我需要将该网络传递给几个并行进程 工作人员 这些进程将使用它来从代理策略与环境的交互中收集样本 我需要并行执行 因
openaigym env.P,AttributeError“TimeLimit”对象没有属性“P”
我目前正在阅读 Sudharsan Ravichandiran 的 Python 强化学习实践 在我遇到的第一个示例中 遇到了以下 AttributeError AttributeError TimeLimit object has no
python
python3x
reinforcementlearning
openaigym
具有可变动作的强化学习
All the 强化学习 http en wikipedia org wiki Reinforcement learning我读过的算法通常应用于具有固定数量操作的单个代理 是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策 例如
machinelearning
reinforcementlearning
planning
使用强化学习训练神经网络
我了解前馈神经网络的基础知识 以及如何使用反向传播算法训练它们 但我正在寻找一种可以用于通过强化学习在线训练 ANN 的算法 例如 车杆向上摆动 http www google com search q cart 20pole 20swin
强化学习中的状态依赖动作集
人们如何处理不同州的法律行动不同的问题 就我而言 我总共有大约 10 个诉讼 这些法律诉讼不重叠 这意味着在某些州 相同的 3 个州始终是合法的 而这些州在其他类型的州永远不合法 我也有兴趣看看如果法律诉讼重叠 解决方案是否会有所不同 对于
machinelearning
reinforcementlearning
QLearning
epsilon 贪婪 q 学习中的 epsilon 和学习率衰减
我知道 epsilon 标志着探索和利用之间的权衡 一开始 你希望 epsilon 较高 这样你才能取得大的进步并学到东西 当您了解未来的奖励时 epsilon 应该衰减 以便您可以利用您发现的更高的 Q 值 然而 在随机环境中 我们的学习
machinelearning
reinforcementlearning
QLearning
神经网络不学习(损失保持不变)
我和我的项目合作伙伴目前在我们最新的大学项目中面临着一个问题 我们的任务是实现一个玩 Pong 游戏的神经网络 我们将球的位置 球的速度和球拍的位置提供给我们的网络 并具有三个输出 向上 向下 DO NOTHING 当玩家获得 11 分后
python
tensorflow
Keras
neuralnetwork
reinforcementlearning
ValueError:给定的 numpy 数组中至少有一个步幅为负,并且当前不支持具有负步幅的张量
我正在使用 RL 编写自动驾驶代码 我正在使用稳定的基线3和开放的人工智能健身房环境 我在 jupyter 笔记本中运行以下代码 但出现以下错误 Testing our model episodes 5 test the environme
python
reinforcementlearning
openaigym
stablebaselines
Q 学习代理的学习率
学习率如何影响收敛速度和收敛本身的问题 如果学习率恒定 Q函数是否会收敛到最优值 或者学习率必须衰减以保证收敛 学习率表示解决问题所采取的步骤的大小 It 不宜太大一个数字 因为它可能会在最小值周围持续振荡 并且它不宜太小否则 将需要大量时
machinelearning
reinforcementlearning
QLearning
强化学习+优化:如何做得更好?
我正在学习如何使用强化学习进行优化 我选择的问题是最大匹配 https en wikipedia org wiki Maximum cardinality matching在二分图中 因为我可以轻松计算出真正的最优值 回想一下 图中的匹配是
价值迭代和策略迭代有什么区别? [关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 在强化学习中 有什么区别策略迭代 and 价值迭代 据我了解 在价值迭代中 您使用贝尔曼方程来求解最优策略 而在策略迭代中 您随机选择一个
machinelearning
reinforcementlearning
markovmodels
valueiteration
Q-learning 和带有贪婪选择的 SARSA 等价吗?
Q learning 和 SARSA 之间的区别在于 Q learning 比较当前状态和最佳可能的下一个状态 而 SARSA 则将当前状态与实际的下一个状态进行比较 如果使用贪婪选择策略 即 100 的时间选择具有最高动作值的动作 那么
reinforcementlearning
QLearning
sarsa
Ray on slurm - 初始化问题
我写这篇文章是因为自从我使用 slurm 以来 我一直无法正确使用 ray 每当我使用命令时 ray init trainer A3CTrainer env my env 我已经在tune上注册了我的env 程序崩溃并显示以下消息 core
reinforcementlearning
slurm
Ray
rllib
需要下一状态传播进行反向传播的神经网络强化学习
我正在尝试构建一个包含卷积和 LSTM 使用 Torch 库 的神经网络 以通过 Q 学习或优势学习进行训练 这两者都需要在更新状态 T 的权重之前通过网络传播状态 T 1 必须进行额外的传播会降低性能 这很糟糕 但不是too坏的 然而 问
neuralnetwork
reinforcementlearning
torch
LSTM
temporaldifference
稳定基线3库中的“确定性= True”是什么意思?
我正在尝试应用稳定的baselines3库中的PPO算法https stable baselines3 readthedocs io en master https stable baselines3 readthedocs io en m
python3x
reinforcementlearning
stablebaselines
1
2
»