强化学习 reward 曲线的绘制

2023-11-11

在这里插入图片描述
每隔一段取一个均值，然后把均值曲线绘制出来，包含全部点的曲线淡化处理
摘自 Z. Mou, Y. Zhang, F. Gao, H. Wang, T. Zhang and Z. Han, “Deep Reinforcement Learning based Three-Dimensional Area Coverage with UAV Swarm,” in IEEE Journal on Selected Areas in Communications, doi: 10.1109/JSAC.2021.3088718.

说明文字:
Fig. 9 shows the rewards of SDQN, the variants of SDQN and other RL algorithms during the training process. The number of training episodes is set to be 800 with 200,000 steps each. Note that SDQN-nC represents the SDQN algorithm with no CNN in observation history model, and SDQN-nD is the SDQN algorithm with no panel divisions of terrain Q in advance. From Fig. 9, we can see that the rewards of SDQN rise much more quickly than that of the other four algorithms. The final rewards of SDQN-nC are less than that of SDQN, which indicates that the CNN in observation history model correctly extracts the features of coverage information of each LUAV and its neighbors. Moreover, the rewards of SDQN-nD rise slower than that of both SDQN and SDQN-nC, which indicates that the panel divisions based on prior knowledge play an important part in the performance improvement. From the high vibrating rewards curve of SDQN-nD, we can see that the panel divisions will reduce the performance variance of LUAVs by increasing the disciplines of patch selections for LUAVs. Furthermore, SDQN has better performance than both Actor Critic and REINFORCE algorithms. The rewards of Actor Critic have lower variance than the rewards of REINFORCE, because Actor Critic algorithm uses an extra critic network to guide the improvement directions of policies.

在这里插入图片描述
只绘制出了每一小段的均值，没有体现波动
摘自 Ding R, Xu Y, Gao F, et al. Trajectory Design and Access Control for Air-Ground Coordinated Communications System with Multi-Agent Deep Reinforcement Learning[J]. IEEE Internet of Things Journal, 2021.

在这里插入图片描述
摘自 Liu X, Liu Y, Chen Y, et al. Machine learning aided trajectory design and power control of multi-UAV[C]//2019 IEEE Global Communications Conference (GLOBECOM). IEEE, 2019: 1-6.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习 reward 曲线的绘制的相关文章

PAT_B_1094 谷歌的招聘（20 分）【测试点3，5】

本题要求你编程解决一个更通用的问题从任一给定的长度为 L 的数字中找出最早出现的 K 位连续数字所组成的素数输入格式输入在第一行给出 2 个正整数分别是 L 不超过 1000 的正整数为数字长度和 K 小于 10 的正整数接
[HarekazeCTF2019]encode_and_encode

HarekazeCTF2019 encode and encode 打开环境得到源码
python+postgresql+psycopg2实现自动化数据库生成（数据库迁移）

python pgsql psycopg2实现一键数据库生成 1 tips Navcat转储sql文件存在主键自增加入下面代码 CREATE SEQUENCE IF NOT EXISTS t 表名 id seq START 1000 手
FastDfs在NET下的使用

FastDfs是一个开源的轻量级分布式文件系统其原理可以查看http blog chinaunix net uid 20196318 id 4058561 html 然后部署安装部分可参考http blog csdn net poecha
codeblocks安装常见问题和版本区别

2019独角兽企业重金招聘Python工程师标准 gt gt gt 目前codeblocks有4个版本8 02 10 05 12 11 13 12 之前一直在用10 05的版本很好用的后来在做gtk是出现版本不匹配问题就换了13 12
Java框架SSM学习——持久层Mybatis之动态SQL

动态SQL 为什么要用动态SQL 如果使用JDBC或者类似Hibernate等其他框架很多时候需要去根据需要去拼接SQL语句这是一个很麻烦的事情因为在某些查询中需要多个条件在使用其他框架的时候需要用大量的Java代码进行判断可
Windows Cluster 分布式算法

在分布式系统中都需要解决分布式一致性问题那么在Windows 集群中使用了什么算法来保证集群的一致性呢 Paxos Windows Server 故障转移集群 WSFC 使用 Paxos 算法在整个系统中同步更改通过记录 Paxo

随机推荐

计算机四级网络考试容易蒙吗,计算机四级网络工程师通过率有多少

计算机四级网络工程师通过率怎么样我们都知道计算机四级网络工程师非常的难考所以想大概知道下通过率是怎样的给自己保个底所以下面就由小编来给大家说说计算机四级网络工程师通过率是怎么样的吧欢迎大家前来阅读计算机四级网络工程师通过率计算
C++宏定义

define是C语言中提供的宏定义命令其主要目的是为程序员在编程时提供一定的方便并能在一定程度上提高程序的运行效率用处 define命令是C语言中的一个宏定义命令它用来将一个标识符定义为一个字符串该标识符被称为宏名被定义的字符串
Servlet[搭建web开发环境，将项目部署到服务器、创建web程序]

目录 web开发环境搭建创建web后端项目并部署到服务器的步骤创建web后端程序如何搭建后端服务器如何开发后端服务器程序实现前后端交互开发第一个web应用程序什么是服务器广义上的服务器计算机硬件计算机软件狭义上的服务器
docker镜像的导出与导入

内网干活的忧桑大概就是偷点懒使用docker镜像 dockerfile中使用的镜像内网中却没法down下来 so 找个外网机先把需要的镜像下载下来再将下载好的镜像载入到内网机通过查资料 docker镜像的导入导出命令有save lo
前端组件Bootstrap4(学习笔记一)

Hello 大家好今天要分享的文章仍然是关于前端的为什么迟迟没有关于Android相关的文章呢其实这个公众号一开始我就有明确的表示它不仅仅局限于Android 我希望它可以博采众长以Android为主其它技术为辅夹杂一些社会
Unity3D之UI按键绑定事件案例(七)

七多个按键事件存在的时候怎么区分怎么同时绑定事件下面的案例可以给出答案第一步通过Hierarchy面板创建多个button 第二步创建一个名为Buttons的脚本代码如下 public class MyEventArgs pu
web前端可视化开发，前端优秀实践指南，知乎上已获万赞

前言跳槽这在 IT 互联网圈是非常普遍的也是让自己升职加薪走上人生巅峰的重要方式那么作为一个普通的Android程序猿我们如何才能斩获大厂offer 呢疫情向好面试在即还在迷茫踌躇中的后浪们如何才能在面试中让自己脱颖而出
Qt自定义控件 —— 颜色选择组合控件

在开始阅读本文之前如果您有学习创建Qt自定义控件并在其他项目中引用的需求请参考 Linux系统下在Qt Creator中创建自定义控件并在其他项目中引用https blog csdn net YMGogre article detail
head 请求了解过吗？如何用 get 模拟 head 请求？不需要服务器返回数据，怎么实现？

HEAD请求是HTTP 1 1协议中定义的一个请求方法与GET请求相似但只请求目标URL的头部不请求实际的数据或者说正文内容其主要用途是检查资源是否被修改检查资源是否存在校验缓存有效性了解服务器性能要用GET请求模拟HEA
[已解决]“ImportError: No module named flask”

1 删除原有的用大写开头的Flask插件 pip uninstall Flask 2 yum安装 flask yum install python flask 3 等待安装完成就可以允许程序啦 100 有用
快速编写json数据

1 打开idea 2 新建txt文件 alt 单击快速加编写json数据
C语言面试必问的经典问题（纯”gan“货）

C语言面试必问的经典问题 1 预处理 1 预编译编译过程最先做的工作是啥何时需要预编译指令有什么答预编译就是预处理就是把一些文本的替换工作工作预编译指令 include ifdef ifndef else endif 编译字
高德地图Js API的使用

申请JSAPI的开发者key 申请地址 http lbs amap com dev key 引入高德地图JavaScript API文件创建地图容器在页面body里你想展示地图的地方创建一个div 容器并指定id标识 div div
Python-Pyqt6之QIntValidator，QDoubleValidator无法限制数值范围的正则表达式解决方案

在使用Pyqt6进行GUI设计的时候在需要输入数值整型浮点型的时候选择使用了QLineEdit这个组件控件详情介绍 QLineEdit组件详情 QLineEdit自带的setValidator包含 QIntValidator QD
promise函数几种写法与坑

promise是ES6中引入的处理异步函数的强大特性但是对promise的不恰当使用可能会达不到最终目的对这个问题的探究来源于这篇文章关于promises 你理解了多少几个异步函数如下 resolve或reject在回调函数里被调用
网络编程的几种I/O模式

1 非阻塞I O 非阻塞I O 若想网络编程时调用I O函数不想让程序阻塞需要使用I O复用技术一个方法是poll 轮询所谓轮询就是执行函数时如果内核不能立即对应用的函数进行响应时就返回给应用一个错误而应用不停的循环调用该函数
JavaScript表示不背小数计算存在误差的锅

浮点数的最高精度是17位小数但是在实际计算时会产生莫名其妙的问题如0 1 0 2的结果不是0 3 而是0 30000000000000004 这个舍入误差会导致无法测试特定的浮点数值例如 var a 0 1 b 0 2 if a b
【数据结构】采用邻接矩阵表示法创建无向网、无向图、有向图、有向网

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档目录一无向网权值对称 1 思路 2 代码 3 运行结果三其他 1 无向图 0 1 对称 2 有向网权值不对称 3 有向图 0 1 不对称一无向网 1 思路
使用python的pandas包查询数据库数据导出到excel

文章目录前言 1 实现分析 2 实现过程 2 1安装环境 2 3功能逻辑 2 4完整代码 3 总结前言前几天接到一个业务的需求让我把当前数据库里面的结果数据导出到excel中然后供业务查看问题是当前结果数据都是列式表所以需要把
强化学习 reward 曲线的绘制

每隔一段取一个均值然后把均值曲线绘制出来包含全部点的曲线淡化处理摘自 Z Mou Y Zhang F Gao H Wang T Zhang and Z Han Deep Reinforcement Learning based Thr

强化学习 reward 曲线的绘制

强化学习 reward 曲线的绘制 的相关文章

随机推荐

热门标签

强化学习 reward 曲线的绘制的相关文章