强化学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL
题目以及思路
环境在这篇博客强化学习原理及应用作业之动态规划算法【SYSU_2023SpringRL】里面介绍了,不再赘述。
蒙特卡洛在这篇博客里面:机器学习之Grid World的Monte Carlo算法解析【MiniWorld】SYSU_2023SpringRL
看看提示:需要智能体和环境交互,交互方式可参考 蒙特卡洛 方法中的描述。时间差分方法不需要等到整个 episode 结束后再更新,而是每步都可以更新 V 值(TD(0)方法)。
Assignment1/td.py 提供了一个示例模板,模板内容可根据需求使用和修改,但需要保证其是一个可运行的程序,运行结果需打印出最终收敛的 V 表 v ,以及使用 env.update_r(v) 后将 V 表的值同步至环境端后