DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理

2023-05-16

在强化学习DQN网络代码实现过程中，针对gym环境中的LunarLander-v2模拟游戏进行学习任务。我的部分代码如下，首先是Agent的状态存储过程：

def __init__(self,gamma,epsilon,lr,input_dims,batch_size,n_actions,    
        # ....此前省略 ....
        self.state_memory = np.zeros((self.mem_size,*input_dims),dtype=np.float32)
        self.new_state_memory = np.zeros((self.mem_size,*input_dims),dtype=np.float32)
        
        self.action_memory = np.zeros(self.mem_size,dtype=np.int32)
        self.reward_memory = np.zeros(self.mem_size,dtype=np.float32)
        self.terminal_memory = np.zeros(self.mem_size,dtype=np.bool)
    def store_transitons(self,state,action,reward,state_,done):
        index = self.mem_cntr % self.mem_size
        self.state_memory[index] = state
        self.action_memory[index] = action
        self.new_state_memory[index] = state_
        self.terminal_memory[index] = done
        self.reward_memory[index] = reward

下面是main代码中的学习循环过程：

if __name__ == '__main__':
    env = gym.make('LunarLander-v2')
    agent = Agent(gamma= 0.99 ,epsilon=1.0 , batch_size=64, n_actions=4,
    eps_end= 0.01 ,input_dims=[8], lr=0.003)
    scores,eps_history = [],[]
    n_games = 10
    for i in range(n_games):
        score = 0
        done = False
        observation  = env.reset() 
        while not done:
            action = agent.choose_action(observation)
            observation_, reward, done, info, __ = env.step(action)
            score += reward
            agent.store_transitons(observation,action,reward,observation_,done)
            agent.learn()
            observation = observation_
        scores.append(score)
        eps_history.append(agent.epsilon)
        # .................#

执行上述代码后报错：

Traceback (most recent call last):
  File ".\main_Lunar_lander.py", line 21, in <module>
    agent.store_transitons(observation,action,reward,observation_,done)
  File "D:\College\Projects\Person_Research\DQN_From_Yotube\DQN.py", line 59, in store_transitons
    self.state_memory[index] = state
ValueError: setting an array element with a sequence. The requested array would exceed the maximum number of dimension of 1.

报错信息提示为数据维度不对应，也即最初通过observation = env.reset()得到的的变量observation类型与Agent存储时的np.float32类型不匹配，而gym官方文档对reset()函数的描述为：在这里插入图片描述
因此怀疑返回的observation有问题，于是通过print('observation:',observation)打印观察返回的observation，显示如下：
reset()函数返回的是一个array类型以及其中数据的type！
因此需要将observation指定为真正需要的array信息即可,observation,__ = env.reset()

    for i in range(n_games):
        score = 0
        done = False
        observation,__  = env.reset() 
        while not done:
            action = agent.choose_action(observation)
            observation_, reward, done, info, __ = env.step(action)
            score += reward
            agent.store_transitons(observation,action,reward,observation_,done)
            agent.learn()
            observation = observation_

此后再次运行，网络就可以正常工作了：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理的相关文章

Http权威指南笔记(十四)-内容协商与转码

现在很多国际化的一些Web服务都会根据不同地区使用的语言不同 xff0c 返回不同语言的页面内容展示给用户而这里面就涉及到本篇介绍的内容内容协商与转码 1 内容协商的技术目前的内容协商技术主要有3种客户端驱动协商服务器驱动协商和透
php curl 分离header和body信息

php curl 分离header和body信息 php中可以通过curl来模拟http请求 xff0c 同时可以获取http response header和body xff0c 当然也设置参数可以只获取其中的某一个当设置同时获取res
文件缓冲区

系统自动在内存区为程序中每一个正在使用的文件开辟一个文件缓冲区从内存向磁盘输出数据 xff0c 必须先送到内存中的缓冲区 xff0c 装满缓冲区后才一起送到磁盘如果从磁盘向计算机读入数据 xff0c 则一次从磁盘文件将一批数据输入到内存缓
【UE4学习】5.相机和蓝图进阶

文章目录相机基础Project Setting控制输入按键事件控制相机设置追踪目标CameraManager实现相机切换API接口与多态蓝图之间的通信方式GameMode 43 Manager显示当前相机信息事件调度器Sequencer入
动态绑定实现的原理

当用virtual关键字来声明一个成员函数 xff0c 编译器机会根据动态绑定机制在幕后完成一些工作当编译器发现类中有虚函数的时候 xff0c 编译器会创建一张虚函数表 xff0c 把虚函数的函数入口地址放到虚函数表中 xff0c 并且在
模板函数实现数组排序

template lt class T gt void sortfun T arr int len int i j T tmp for i 61 0 i lt len 1 i 43 43 for j 61 i j lt len 1 j 43
静态转换和动态转换

1 静态转换静态转换用于 xff0c 普通数据类型间的转换 xff0c 具有继承关系的父子类指针或引用的转换 class Dad class Son public Dad class MyClass 基础类型转换 void test1 i
文件的原子操作

文件的原子操作是指一个操作一旦启动 xff0c 则无法能被破坏它的其它操作打断 1 写文件原子操作无论是两个打开 xff0c 还是dup xff0c 同时操作一个文件都可能引起混乱 xff0c 解决这个问题的方法是 xff0c 可以通过O
目录操作

创建目录 xff1a int mkdir const char pathname mode t mode xff1b pathname xff0c 路径 xff1b mode xff0c 目录访问权限 xff1b 返回值 xff1a 成功
【UE4学习】6.粒子系统

文章目录粒子系统常用参数Simple Sprite Burst EmitterEmitter SettingsEmitter SpawnEmitter UpdateParticle SpawnParticle UpdateAdd Even
java中Array/List/Map/Object与Json互相转换详解

JSON JavaScript Object Notation xff1a 是一种轻量级的数据交换格式一 JSON建构有两种结构 xff1a 对象和数组 1 对象 xff1a 对象在js中表示为扩起来的内容 xff0c 数据结构为 ke
ZipInputStream解压远程文件报错，java.lang.IllegalArgumentException: MALFORMED[1]

我遇到的问题是报的这个错java lang IllegalArgumentException MALFORMED 1 at java util zip ZipCoder toString ZipCoder java 65 不是 java l
OAuth2.0接百度平台进行授权

百度开发文档 xff1a https openauth baidu com doc regdevelopers html 1 注册开发者账号并创建一个应用 2 创建应用后 xff0c 获取API Key和Secret Key 3 创建一个S
Spring 中最常用的 11 个扩展点

1 自定义拦截器 spring mvc拦截器根spring拦截器相比 xff0c 它里面能够获取HttpServletRequest和HttpServletResponse等web对象实例 spring mvc拦截器的顶层接口是 xff1a
经典排序算法

https juejin cn post 7198840786766102589
SpringBoot项目启动加载时排除某一个类

在Application启动类上 xff0c 用这个注解就可以指定某个类不加载进容器 64 ComponentScan
手写一个生产者/消费者模式（三种方式实现）

这种设计模式需要满足以下三点要求 xff1a xff08 1 xff09 生产者生产数据到缓冲区中 xff0c 消费者从缓冲区中取数据 xff08 2 xff09 如果缓冲区已经满了 xff0c 则生产者线程阻塞 xff1b xff08 3
Android中Okhttp,Volley,Retrofit网络框架优缺点及对比

Okhttp xff1a Square 公司开源的 OkHttp 是一个专注于连接效率的 HTTP 客户端 OkHttp 提供了对 HTTP 2 和 SPDY 的支持 xff0c 并提供了连接池 xff0c GZIP 压缩和 HTTP 响应
Google身份验证服务端实现

import org apache commons codec binary Base32 import org apache commons codec binary Base64 import javax crypto Mac impo
下载jdk8登录账号

目前在官网下载低于jdk1 8的java jdk的时候需要登陆 xff0c 这边分享一个账号 xff0c 方便下载 2696671285 64 qq com 密码 xff1a Oracle123

随机推荐

idea中maven项目 jar包下载不完整解决办法

有时从git上clone项目 xff0c maven工程 xff0c 有时候pom xml在project标签处报错 xff1a Failed to read artifact descriptor for xxx jar 这种有时候时ja
【RoboMaster】舵机驱动&蓝牙模块教程

本文是为参加2021赛季北京理工大学机器人队校内赛所写的简单教程 xff0c 意在帮助参赛选手快速了解校内赛所需模块的使用方法 xff0c 以及其与薪火培训知识的联系舵机驱动硬件接线舵机是由直流电机减速齿轮组传感器和控制电路组成的
vs编译程序加快速度的方法

在使用VS2013编译C 43 43 程序的时候 xff0c 修改某个文件 xff0c 会使整个工程都重新编译一遍 xff0c 为了使编译速度加快 xff0c 可以修改C 43 43 配置属性 xff1a 第一因时间引起的 xff1a 1
Visual Studio中gets报错解决方法

方法如下 xff1a 1 这是敲出gets后报的错 2 经过查找资料 xff0c 知道vs2015之后就不支持gets了 xff0c 变成了gets s xff0c 并且后面的括号中也不能单独写一个数组名 xff0c 还需加上数组内的个数
利用RCLCPP实现话题的发布与订阅

目录 1 创建节点2 编写发布与订阅节点2 1 发布节点 xff08 topic publisher 01 cpp xff09 2 2 订阅节点 xff08 topic subscribe 01 cpp xff09 2 3 修改CmakeL
ROS2实现虚拟串口通信

目录 1 下载demo文件1 1安装python3 serial 2 下载虚拟串口模拟器socat3 串口通信测试3 1代码修改3 2开启uart example py3 3开启发送端口dev pts 23 4进入demo文件夹 xff0c
ubuntu编译卡死解决

添加交换空间一 xff0c 查看当前系统的swap大小 span class token function free span span class token parameter variable m span 二 xff0c 创建一个
运行LIO-SAM，[lio_sam_imuPreintegration-2] process has died，[lio_sam_mapOptmization-5] process has died

报错图例解决办法 span class token builtin class name cd span usr local lib span class token function sudo span span class token
运行LeGO-LOAM

参考链接 xff1a https blog csdn net weixin 39754100 article details 112186264 https blog csdn net NEU Ocean article details
PELCO-D协议校验位

PELCO D的功能是用于矩阵和其它设备之间的通信协议 PELCO D控制命令格式如下字节1字节2字节3字节4字节5字节6字节7起始字节云台地址命令字1命令字2数据1数据2结束字节FFaddresscommand1command2data
【Arduino 无刷电机控制教程】

Arduino 无刷电机控制教程 1 概述 2 试验准备 3 实验原理 4 Arduino 无刷电机控制电路图 4 1 实验组件 4 2 用于 BLDC 电机控制的 Arduino 代码 5 实验验证 5 1 电位计控制无刷电机速度 5
SLAM之camera(Intel RealSense D435)调试第二弹：Ubuntu16.04平台下getting started

一实验环境 Camera Type D435 Firmware Version 05 09 02 00 or 05 10 06 00 Operating System amp Kernel Version Ubuntu16 04 5 LT
【电赛】电设校赛常用电路整理

电设校赛常用电路整理写在前面引用与致谢单电源供电集成运放电压比较器单限比较器过零比较器改进 xff1a 限制幅度和设置偏置滞回比较器窗口比较器波形发生与变换正弦波RC正弦振荡电路LC正弦振荡电路方波三角波锯齿波尖顶波阶梯波场效应管
材料力学：使用matlab绘制铰支梁在多个集中力、集中力偶矩作用下的挠曲线

材料力学 xff1a 使用matlab绘制铰支梁在多个集中力集中力偶矩作用下的挠曲线一程序输入参数介绍二程序设计思路介绍 1 输入变量预处理 2 支座反力求解 3 梁的弯矩求算 4 数值积分法求解挠度 5 曲线绘制及关键点标注三
【材料力学】基于Matlab APP Designer 开发的绘制静定梁剪力、弯矩与挠曲线的软件

基于Matlab APP Designer 开发的绘制静定梁剪力弯矩与挠曲线的软件随便写点一前期程序架构1 1静定梁类型划分1 2软件UI设计1 3输入参数自动调整二算法分析与程序设计2 1支座力转化2 1 1铰支梁2 1 2左端
人工智能原理自学（二）——激活函数、隐藏层神经元以及高维空间

人工智能原理自学 xff08 二 xff09 笔记目录激活函数给机器注入灵魂激活函数代码实现 xff1a 隐藏层 xff1a 神经网络为什么Working问题的引出 xff1a 代码实现 xff1a 高维空间面对越来越复杂的问题类型分
【计算机三级嵌入式】考试自学笔记（三）——嵌入式系统硬件组成、嵌入式处理芯片以及存储器介绍

嵌入式系统硬件组成嵌入式最小硬件组成典型嵌入式应用系统硬件组成嵌入式处理芯片ARM的AMBA总线体系结构及标准基于ARM内核的嵌入式芯片的硬件组成嵌入式处理芯片的选型嵌入式系统的存储器存储器层次结构存储器的分类存储器主要性能指标片内存储
【计算机三级嵌入式】考试自学笔记（四）——I/O接口与设备、典型嵌入式处理芯片：S3C2410以及嵌入式系统的外部通信接口

目录 I O接口及常用的I O设备通用I O接口GPIO集成电路互联总线接口I2C串行外设接口SPI串行异步通信接口UART通用串行总线USB简单的输入设备 ARM内核典型嵌入式处理芯片S3C2410S3C2410的时钟及电源管理组件中断控
人工智能原理自学（四）——Keras手写体识别实验、卷积神经网络入门

目录经典数据集mnist与手写体识别全连接神经网络的图像输入与问题思考卷积操作的引入与简单卷积核示例基于全连接神经网络的代码实现 xff1a 卷积神经网络 xff1a 图像识别实战经典卷积神经网络结构 xff1a LeNet 5LeNet
DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理

在强化学习DQN网络代码实现过程中 xff0c 针对gym环境中的LunarLander v2模拟游戏进行学习任务我的部分代码如下 xff0c 首先是Agent的状态存储过程 xff1a span class token keyword

DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理

DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理 的相关文章

随机推荐

热门标签

DQN网络代码调用env.reset()后存储观测信息报错问题ValueError: setting an array element with a sequence.解决处理的相关文章