具有可变动作的强化学习

2024-04-11

All the 强化学习 http://en.wikipedia.org/wiki/Reinforcement_learning我读过的算法通常应用于具有固定数量操作的单个代理。是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策？例如，如果玩家控制 N 个士兵，并且每个士兵根据其状况有随机数量的动作，那么如何在计算机游戏中应用 RL 算法？您无法为全局决策者（即“将军”）制定固定数量的行动，因为随着士兵的创建和杀死，可用的行动会不断变化。而且您无法在士兵级别制定固定数量的行动，因为士兵的行动是基于其直接环境的条件。如果一个士兵没有看到对手，那么它可能只能行走，而如果它看到 10 个对手，那么它有 10 个新的可能动作，攻击 10 个对手中的 1 个。

你所描述的情况并没有什么异常。强化学习是一种寻找价值函数的方法马尔可夫决策过程 http://en.wikipedia.org/wiki/Markov_decision_process。在 MDP 中，每个州都有自己的一套行动。要继续进行强化学习应用，您必须清楚地定义问题中的状态、动作和奖励。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有可变动作的强化学习的相关文章

Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
使用预训练（Tensorflow）CNN 提取特征

深度学习已成功应用于多个大型数据集用于对少数类别猫狗汽车飞机等进行分类其性能优于 SIFT 特征袋颜色直方图等更简单的描述符然而训练这样的网络需要每个类别大量的数据和大量的训练时间然而在花时间设计和训练这样一种设备并
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
Tensorflow 2.0 中的二阶导数

我正在尝试计算标量变量的简单向量函数的二阶导数f x x x 2 x 3 使用 TF 2 3 与tf GradientTape def f ab x return x x 2 x 3 import tensorflow as tf in1
收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
使用 sklearn 进行稀疏主成分分析

我正在尝试从中复制一个应用程序paper https people eecs berkeley edu elghaoui Pubs SPCAhandbookSV pdf 作者下载的地方20个新闻组 http scikit learn org
深度学习和传统的人工神经网络机器学习有什么区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能否简要解释一下两者之间的差异深度学习 https developer nvidia com deep learning和利用神经网
对于神经网络来说，拥有正态分布的数据重要吗？

因此与数据相关的标准操作之一就是对其进行归一化并将其标准化为均值为 0 标准差为 1 的正态分布数据对吧但是如果数据不是正态分布怎么办另外所需的输出也必须呈正态分布吗如果我希望我的前馈网络在两个类 1 和 1 之间进行分类
使用 Azure 机器学习检测图像中的符号

4年前我发帖这个问题 https stackoverflow com q 6999920 411094不幸的是得到的一些答案超出了我的技能水平我刚刚参加了一次构建巡演会议他们在会上谈论了机器学习这让我想到了使用 ML 来解决我的问题
在逻辑回归中使用排名数据

当我努力学习这些概念时我将对此给予最大赏金我正在尝试在逻辑回归中使用一些排名数据我想使用机器学习来制作一个简单的分类器来判断网页是否好这只是一个学习练习所以我不期望有很好的结果只是希望学习过程和编码技术我已将数据放入 c
Keras Predict_classes 方法返回“列表索引超出范围”错误

我对 CNN 和机器学习总体来说是新手并且一直在尝试遵循 TensorFlow 的图像分类教程现在可以找到Google Colabhere https colab research google com drive 1gwZp7 t
如何使用WordNet或与wordnet相关的类别来实现基于类别的文本标记？

如何使用wordnet按单词类别标记文本 java作为接口 Example 考虑以下句子 1 计算机需要键盘显示器 CPU才能工作 2 汽车使用齿轮和离合器现在我的目标是例句必须标记为第 1 句话电脑电子键盘电子中央处理器电
地图应用的聚类算法

我正在研究地图上的聚类点纬度经度对于快速且可扩展的合适算法有什么建议吗更具体地说我有一系列纬度经度坐标和一个地图视口我正在尝试将靠近的点聚集在一起以消除混乱我已经有了解决问题的方法 see here http bouldr
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
多输出回归问题的多重损失

所以我试图训练一个 CNN 模型来预测 4 个实值输出回归问题我尝试使用均方误差作为损失函数我的问题是我是否将输出层分支为 4 个不同的输出层其中有 4 个不同的输出层由于最后一层的权重是单独更新的 loss 4 MSE 确实可以使
音乐分析软件[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案问候我可能已经想到了这一点但有人知道 Last fm 之前是否使用某种形式的开源项目对音乐进行分析
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
使用 to_categorical 转换 np.array 时出现内存问题

我有一个像这样的 numpy 数组 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 我这样改造它以减少内存需求 x val x val asty
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为

随机推荐

如何让 HTTP 请求在 Flutter Web 中工作？

我正在尝试从我的网站链接获取数据 http mrmatjar com kaka dataaza php http mrmatjar com kaka dataaza php 这是我的代码 import dart convert impo
将文件中的非连续块映射到连续内存地址

我对使用内存映射IO的前景感兴趣最好是利用 boost interprocess 中的设施实现跨平台支持将文件中的非连续系统页面大小块映射到内存中连续的地址空间一个简化的具体场景我有许多普通旧数据结构每个结构都有固定长度
使用仅显示唯一值的 D3 对列表进行排序

我需要对 D3 上显示唯一值的列表进行排序我可以对其进行排序但它显示了它的所有出现情况该文件是 csv 我想按邮政编码列对其进行排序仅作为背景我稍后将使用此列表作为下拉菜单因此这是过滤数据的一种方法这就是我所拥有的 var
查找鼠标相对于元素的位置

我想用画布制作一个小绘画应用程序所以我需要找到鼠标在画布上的位置由于我没有找到可以复制粘贴的无 jQuery 答案因此这是我使用的解决方案 document getElementById clickme onclick functi
如何在另一个类中访问 IBOutlet？

我在这个问题中遇到了同样的错误我如何访问另一个类中的 IBOutlet 迅速 https stackoverflow com questions 35358225 how can i access iboutlet in another
用于访问 VMware vSphere PowerCLI 的 C# 代码 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有 C 代码通过 PowerCLI 或其他方式访问 vSphere API 的示例对于测试自动化
用于方形图像的 Google 自定义搜索 API

我正在寻找一种方法来指定 Google 自定义搜索 API 返回的图像具有方形格式我尝试过 tbs iar s 因为我读过使用自定义搜索 API REST JSON 搜索方形图像 https stackoverflow com quest
如何从行索引 Swift 获取索引路径

我正在加载一个数组UIcollectionview 稍后会添加其他数据我想随机选择集合视图项目 var indexpath Int arc4random uniform UInt32 items count 1 self collecti
删除非英文字符 PHP

我如何解析字符串以删除 php 中的所有非英文字符现在我想删除类似的东西谢谢 str preg replace 00 255 u str
是否可以使用 jquery 为每一行文本添加动画？

jquery 是否可以一次显示一行文本我知道它可以在闪存中完成我这里有一个例子http iliketoplay dk blog deff http iliketoplay dk blog deff 在播放视频时鼠标单击一个圆圈将打开一
使用 EF Core 继承时如何避免重复属性投影？

我正在努力解决如何在使用时避免重复投影逻辑EF Core 中的继承 https learn microsoft com en us ef core modeling inheritance 这是我的情况我有三种类型 Lesson 这是一个
可以在单个 PHP 脚本中使用多个独立的 $_SESSION 吗？

我想在单个 PHP 脚本中使用两个独立的 SESSION 我尝试使用以下代码验证这是否可行 error reporting 1 session name session one session start SESSION array SES
如何使用 Node.js 标记 Markdown？

我正在构建一个 iOS 应用程序该应用程序的视图将从 Markdown 中获取其来源我的想法是能够将 MongoDB 中存储的 markdown 解析为 JSON 对象如下所示 h1 This is the heading p Her
如何使用Qt中的QSyntaxHighlighter类在QML TextEdit上实现富文本逻辑？

我的 QML 文件中有一个 TextEdit 并且有一个 QSyntaxHighlighter C 类我想在 C 类中指定突出显示逻辑并将其应用到 TextEdit 但我不确定如何在 QML 对象和 C 类之间建立连接您还可以提供一些示
Symfony2 表单事件 PreSetData 订阅者

在我的应用程序中用户可以为某些实体创建自定义字段然后在显示表单时为每个实体对象设置此自定义字段的值实现是这样的 1 我为表单创建了一个接口并且我想要实现该接口的表单 2 我为所有表单创建了一个表单扩展 app core form b
如何在 python 中使用网址下载文件？通过浏览器下载可以，但不能通过python的请求下载

如果在浏览器 Firefox Chrome 等中输入 URL 则会下载该文件但是当我尝试使用 python 下载相同的文件使用相同的 URL 时requests or urllib图书馆我没有得到任何回应 URL https www
用例可以没有参与者吗？

我正在研究全自动系统的用例图外部系统只会触发该系统的一个用例大多数其他用例都是计划任务并由计时器调用我有一个由计时器调用的用例它包含并扩展了其他两个用例当我编写用例描述时谁将成为 UC 2 和 UC 3 的参与者用例可以在没有
无法销毁多对多关系中的记录

我是 Rails 新手所以我确信我犯了一个简单的错误我在两个模型之间建立了多对多关系 User and Group 它们通过连接模型连接GroupMember 这是我的模型删除了不相关的内容 class User lt ActiveR
WCF 和多主机标头

我的雇主网站有多个主机名它们都访问同一服务器我们只是出于品牌目的显示不同的皮肤不幸的是 WCF 在这种情况下似乎不能很好地工作我试过了使用自定义主机工厂覆盖默认主机 http www robzelt com blog 2007 01
具有可变动作的强化学习

All the 强化学习 http en wikipedia org wiki Reinforcement learning我读过的算法通常应用于具有固定数量操作的单个代理是否有任何强化学习算法可以在考虑可变数量的动作的同时做出决策例如

具有可变动作的强化学习

具有可变动作的强化学习 的相关文章

随机推荐

热门标签

具有可变动作的强化学习的相关文章