强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

2023-11-05

在这里插入图片描述
这里使用的是 OpenAI Taxi-V3 环境

这里有 4 个地点，分别用 4 个字母表示，任务是要从一个地点接上乘客，送到另外 3 个中的一个放下乘客，越快越好。
在这里插入图片描述

成功运送一个客人获得 20 分奖励
每走一步损失 1 分（希望尽快送到目的地）
没有把客人放到指定的位置，损失 10 分
渲染图中显示，一共 R，G，B，Y 这 4 个地点，黄色的块是 taxi，其中 “:” 栅栏可以穿越，"|" 栅栏不能穿越
蓝色显示的就是有乘客的地方，红色显示的就是乘客的目的地

文章目录

Step 0: 安装依赖

需要 3 个库：

Numpy 用来存储和更新 Q 表
OpenAI Gym 用来创建交互环境
Random 用来产生随机数

import numpy as np
import gym
import random

Step 1: 创建环境

创建 Taxi environment
OpenAI Gym 里面有很多环境提供给强化学习使用

env = gym.make("Taxi-v3")
env.render()

Step 2: 创建 Q 表并初始化

创建 Q 表的前提，是知道有多少状态和动作的维度
OpenAI Gym 提供了两个接口 env.action_space.n 和 env.observation_space.n

action_size = env.action_space.n # 获取动作维度（一个状态下有几种动作选择）
print("Action size ", action_size)

state_size = env.observation_space.n # 获取状态维度（一共多少种状态）
print("State size ", state_size)

qtable = np.zeros((state_size, action_size)) # 初始化 Q 表
print(qtable)

Step 3: 超参数设置

明确超参数：

total_episodes = 50000        # 一共玩多少局游戏
total_test_episodes = 100     # 测试中一共走几步
max_steps = 99                # 每一局游戏最多走几步

learning_rate = 0.7           # 学习率
gamma = 0.618                 # 未来奖励折扣率

# 探索相关参数
epsilon = 1.0                 # 探索概率
max_epsilon = 1.0             # 一开始的探索概率
min_epsilon = 0.01            # 最低的探索概率 
decay_rate = 0.01             # 探索概率的指数衰减概率

Step 4: Q learning 算法

Q learning 算法具体实施:

# 循环 50000 局游戏
for episode in range(total_episodes):
		# 重置环境
    state = env.reset()
    step = 0
    done = False
    
    for step in range(max_steps): # 每一局游戏最多 99 步
        # 3. Choose an action a in the current world state (s)
        ## 生成 0～1 之间的随机数
        exp_exp_tradeoff = random.uniform(0,1)
        
        ## 如果这个数字大于 探索概率（开始时为 1），则进行开发（选择最大 Q 的动作）
        if exp_exp_tradeoff > epsilon:
            action = np.argmax(qtable[state,:])
        
        ## 否则，进行探索（选择随机动作）
        else:
            action = env.action_space.sample()
        
        # 这个动作与环境交互后，获得奖励，环境变成新的状态
        new_state, reward, done, info = env.step(action)

        # 按照公式 Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)] 更新 Q 表
        qtable[state, action] = qtable[state, action] + learning_rate * (reward + gamma * 
                                    np.max(qtable[new_state, :]) - qtable[state, action])
                
        # 迭代环境状态
        state = new_state
        
        # 如果游戏结束，则跳出循环
        if done == True: 
            break
    
    # 减小探索概率（由于不确定性越来越小）
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)

Step 5: 使用 Q 表来玩 Taxi !

大约 50 000 局以后，就达到很好的训练结果
看看我们训练的智能体如何玩 Taxi

env.reset()
rewards = []

for episode in range(total_test_episodes):
    state = env.reset()
    step = 0
    done = False
    total_rewards = 0
    print("****************************************************")
    print("EPISODE ", episode)

    for step in range(max_steps):
        env.render()
        # 测试中我们就不需要探索了，只要选择最优动作
        action = np.argmax(qtable[state,:])
        
        new_state, reward, done, info = env.step(action)
        
        total_rewards += reward
        
        if done:
            rewards.append(total_rewards)
            print ("Score", total_rewards)
            break
        state = new_state
env.close()
print ("Score over time: " +  str(sum(rewards)/total_test_episodes))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习

算法

人工智能

强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏的相关文章

利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
【牛客周赛Round 27】题目讲解

题目一小红的二进制删数字小红拿到了一个二进制字符串 s 她可以删掉其中的一些字符使得最终该字符串为一个2的幂即可以表示为 2 k 形式的数小红想知道自己最少删几个字符可以达成请你编写一个函数返回这个答案具体思路看到这道题目
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
【一种新的Burton-Miller型奇异边界方法（BM-SBM）】用于声学设计灵敏度分析，2D和3D声学设计灵敏度分析的奇异边界方法研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 2D 2 2 3D
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
5_机械臂运动学基础_矩阵

上次说的向量空间是为矩阵服务的 1 学科回顾从科技实践中来的数学问题无非分为两类一类是线性问题一类是非线性问题线性问题是研究最久理论最完善的而非线性问题则可以在一定基础上转化为线性问题求解线性变换数域 F 上线性空间V中的变
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车

随机推荐

RestTemplate的详解

引言在SpringCloud微服务中通过引入 ribbon实现了服务消费者的客户端负载均衡功能在这个过程中使用了一个非常有用的对象 RestTemplate 该对象会使用 Ribbon 的自动化配置同时通过配置 LoadBalanc
MATLAB 程序设计

文章目录前言一 M文件操作介绍 M文件的创建与打开 1 建立新的M文件 2 打开已有的文件 3 脚本文件的运行二输入输出语句 1 输入函数 input 2 输出函数 display和disp 3 格式化输出函数 fprintf 4
把单元格一分为二_excel如何把一个单元格分成两个 excel单元格拆分为二行

excel如何把一个单元格分成两个 excel单元格拆分为二行 excel助手今天为大家分享一篇干货知识如何设置excel单元格拆分为二行今天的分享角度是从工作中常用的角度谈的正如标题提到的 excel如何把一个单元格分成两个 ex
线性代数笔记 2 - 矩阵的初等变换

矩阵的初等变换初等行变换对换两行对换i j 两行记作 r i r j
abp web.mvc项目中的菜单加载机制

abp中的菜单加载机制在abp中菜单的定义与我们传统写的框架不一样它是在编写代码的时候配置而我们一般写的通用权限管理系统中是后期在后台界面中添加的这一点有很大不同 abp关于菜单的定义及管理挺复杂的与菜单相关的结构类接口及扩展
ArcGIS Server Linux 10.7压缩包

ArcGIS Server Linux 10 7压缩包链接 https pan baidu com s 1GYjElpbXZN0938 vWyWSOA 提取码 nkbp
分享一个去水印接口，完全免费，早点下手啊

上传到任意空间或者服务器访问即可用目前支持很多平台抖音快手皮皮虾西瓜红书微视最右哔哩哔哩皮皮搞笑等常见平台而且还是免费的该接口测试完全免费如果那天收费了大家可以直接放弃使用
linux下如何清理缓存

手头的路由本身内存就比较少上面又跑了一个nginx php的环境简直慢的爆炸 check的时候发现内存经常被占了很多 linux的虚拟内存机制很多时候回导致内存得不到及时释放有时候内存很少了 kill了很多进程但是内存还是没有释放
React_井字棋

该项目是跟着react官网写的由于是初学就只用来记录自己的代码如果和我一样是初学react建议看官网 react import React from react import ReactDOM from react dom clien
C++的范围for语句详解附易错实例

博客内容 C 读取一行内个数不定的整数的方式作者陈大大陈个人简介一个正在努力学技术的准前端专注基础和实战分享欢迎私信欢迎大家这里是CSDN 我总结知识和写笔记的地方喜欢的话请三连有问题请私信范围for语句是C 引入的
深度学习做分类时出现list index out of range解决办法之一

error list index out of range 索引出了问题首先检查一下自己的数组索引是不是真的有问题如果没问题就是自己读入的文件里包含不能识别的字符比如空格参考 https blog csdn net weixin 3
Ubuntu 12.04 下安装ncurses-devel

解决Ubuntu 12 04 使用 make menuconfig 配置Linux 内核时出现缺少 ncurses devel 库支持 Unable to find the ncurses libraries or the require
Instrusive 【HDU - 5040】【2014 北京 BFS】

题目链接一道有着很多需要细节的地方需要注意的题挺不错的这题的数据也是给的很好然后讲一下题意吧题意有一个N N的网格有起点M和终点T 我们从起点需要走到终点每一步需要花费的时间是单位一但是呢我们不能被摄影机拍摄到摄影机是
halcon21.11安装教程详解

文章目录 1 软件下载 2 安装过程 halcon21 11安装教程详解 1 软件下载 a 官网 https www mvtec com cn b 百度网盘下载链接 https pan baidu com s 1 Bdz1l54PQWxb
Pycharm-Python 下载安装第三方库

Pycharm Python 下载安装第三方库一安装第三方库 00 新建项目 02 两种安装方式通过代码提示安装 pip install 安装二小结最近我使用 pip install 安装第三方库时出现了一些问题不知道为什么
nvidia自动更新带来的问题

实验室的ubuntu 14 04 lts server 上的gpu突然不能用了使用 nvidia smi 查看gpu信息时显示 Failed to initialize NVML GPU access blocked by the ope
leetcode 54. 螺旋矩阵 python

题目描述题解 1 逆时针的遍历顺序为右下左上定义一个directions的list 分别对应这四个方向如果当前方向的下一个位置到达matrix边界或者已经被访问过则变换为下一个方向 2 定义一个和输入matrix大小相同的f
scala学习-Description Resource Path Location Type value toDF is not a member of org.apache.spark.rdd.R

编译如下代码时出现value toDF is not a member of org apache Spark rdd RDD People 错误 val rdd RDD People sparkSession sparkContext
单例模式详解----懒汉式/饿汉式（C++实现）

单例模式单例模式是一种常用的软件设计模式它的核心结构中只包含一个被称为单例的特殊类通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问从而方便对实例个数的控制并节约系统资源如果希望在系统中某个类的对象只能存在一个单
强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

这里使用的是 OpenAI Taxi V3 环境这里有 4 个地点分别用 4 个字母表示任务是要从一个地点接上乘客送到另外 3 个中的一个放下乘客越快越好成功运送一个客人获得 20 分奖励每走一步损失 1 分希望尽快送到目的