人工智能学习笔记(一)Agent

2023-11-16

开篇前言

这段时间找工作,发现自己太菜了,一直刷题也刷不动,索性总结一下以前学习的课程。在外留学的这两年学了好多东西,无奈总不用都忘记了。所以我决定开始写博客,整理一下以前的学习资料,感觉好多东西不看都忘记了,学费挺贵的,我不能把知识还给老师。本系列博文覆盖内容为search,KRR和planning,教材为人工智能:一种现代的方法(第三版)。笔记中也会记录老师引申出的一些内容,原书中是没有的。作者水平有限,希望大家多多指点。这篇文章的内容在书上第二章。(PS:去年年中出了第四版,不过是英文的,1800一本好贵呀,买不起ค(TㅅT)ค)

agent的分类

1、简单反射agent

简单反射agent是最简单的agent,这类agent仅仅基于当前的感知来做决定。
在这里插入图片描述

2、基于状态的反射agent

这种agent的内部状态可以跟踪环境中不可见的相关方面,环境模型描述环境如何工作(环境状态如何受到动作的影响。
在这里插入图片描述

3、基于目标的agent

目标用于描述理想的情况。此时,agent结合目标和环境模型来选择行动。planning 和 search是人工智能子领域中致力于建立基于目标的agent。(PS:planning挺难的,当时我就没学会)
在这里插入图片描述

4、基于效用的agent

效用函数的出现使得agent将性能度量内部化。在一些不确定的情况下,agent会选择那些能让期望效用最大化的动作。
在这里插入图片描述
(PS:最近朋友圈里火了的那个自杀狼就是因为效用问题导致的狼的自杀。狼吃羊加10分,狼撞到障碍物扣1分。为了鼓励狼吃羊,每过1秒减0.1分。这导致了狼抓到羊也可能会是负分,可能不如直接撞死的好。我们可以把羊的分数按照时间递减,这样应该不会出现狼自杀的情况)

5、学习agent

动作选择元件跟上面讲的agent一样,跟前面的agent不一样的是学习agent多了学习元件。学习元件使用评判元件的反馈来修改动作的选择。学习agent中的问题生成器负责得到新的和有信息的经验的行动提议。
在这里插入图片描述

Exploration vs Exploitation

为什么我要写这一段东西那?这是因为学习agent其实是有一个基本原则困境的。那就是探索和利用(这个是我自己翻译的,第三版书上还没有这部分)。首先我们来看一下这两个词的定义。

  • Exploration: 采取其他(可能是随机的)行动来了解更多内容,希望找到比目前已知的内容更好的内容。
  • Exploitation: 为了有最好的结果,agent根据当前的知识,贪婪的使用已经学会的东西去做选择。
    这就是学习agent面临的困境。如果我们只为了最好的结果,一味的在每一步追求最优解,最终agent可能会被困在次优解。(比如贪心算法,总是选当前的最优解,可能最终得不到最优解,不过大部分时候贪心算法得到的结果都不错)所以agent必须进行探索以避免卡在次优行为。但是探索是有成本的,如何平衡exploration和exploitation是一个问题。通常情况下,我们建议agent在早期阶段的探索多余后期。(大家可以看看模拟退火算法).。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能学习笔记(一)Agent 的相关文章

随机推荐

  • C++时间戳转换方法详解及示例代码

    C 时间戳转换方法详解及示例代码 时间戳是指从某个固定的起始时间点开始计算的时间间隔 通常以秒为单位表示 在开发中 我们经常需要将时间戳转换成可读性更好的日期时间格式 或者将日期时间格式转换为时间戳 在本文中 将详细介绍如何使用C 编程语言
  • windos 11第一次开机跳过联网/华硕笔记本开机网络错误

    前言 电脑卖家在电脑系统和自带的office办公软件激活后就不支持退货了 目前自带win11的新电脑 开机连网和之前win10不同 没法直接跳过 连网后又必须使用微软账户 对于想先进入电脑桌面检测一下电脑性能和使用本地账号的人很不友好 一下
  • elementui的上传功能-上传图片加参数

    elementui的上传功能 上传图片加参数
  • 面试总结(七):大数据与高并发-1

    问题导读 1 秒杀系统的架构设计是怎样的 2 为什么要使用NOSQL NOT ONLY SQL 3 传统RDBMS和NOSQL的区别是什么 大数据与高并发一 秒杀架构设计业务介绍什么是秒杀 通俗一点讲就是网络商家为促销等目的组织的网上限时抢
  • FISCO BCOS 七、MetaMask测试Ganache搭建的私有网络

    目录 背景介绍 所需软件 1 Ganache 2 MetaMask 操作 第一步 启动Ganache 第二步 使用MetaMask连接Ganache 第三步 开始测试 背景介绍 本文主要介绍如何使用Ganache 在本地搭建以太坊私有网络
  • 【Linux网络编程笔记】TCP短连接产生大量TIME_WAIT导致无法对外建立新TCP连接的原因及解决方法—实践篇

    http blog csdn net slvher article details 8941945 上篇笔记主要介绍了与TIME WAIT相关的基础知识 本文则从实践出发 说明如何解决文章标题提出的问题 1 查看系统网络配置和当前TCP状态
  • AJAX学习笔记3练习

    AJAX学习笔记2发送Post请求 biubiubiu0706的博客 CSDN博客 1 验证用户名是否可用 需求 用户输入用户名 失去焦点 gt onblur失去焦点事件 发送AJAX POST请求 验证用户名是否可用 新建表 前端页面 W
  • node连接mysql实现带分页列表多条件模糊查询效果-新手教程

    前言 使用node连接mysql 这里是模糊查询方法完整流程 第一 安装我们的express脚手架 入口 第二 在根目录下创建model文件夹 里面放两个文件 1 mysql config js 这里放的是我们的数据库配置 配置链接数据库参
  • 现代JavaScript,你应该使用的10件事

    javascripttip 3 部分系列 1现代 JavaScript 你应该使用的 10 件事 从今天开始 2了解如何在 JavaScript 中使用循环 3如何在 JavaScript 中学习足够多的 RegEx 才能变得危险 您可能对
  • angularjs ajax header,AngularJS发送异步Get/Post请求方法

    1 在页面中加入AngularJS并为页面绑定ng app 和 ng controller 2 添加必要的控件并绑定相应的事件 get param post Get Post 3 在JS脚本中发送进行Get Post请求 get scope
  • keras 入门:卷积神经网络实现 MNIST 手写数字识别

    keras 入门 卷积神经网络实现 MNIST 手写数字识别 手写数字识别问题作为机器学习领域中的一个经典问题 本文介绍如何使用 keras 构建卷积神经网络模型实现 MNIST 手写数字识别 文本代码只需更换训练集目录 修改图片输入尺寸和
  • UVA-140 带宽 题解答案代码 算法竞赛入门经典第二版

    GitHub jzplp aoapc UVA Answer 算法竞赛入门经典 例题和习题答案 刘汝佳 第二版 把输入的这些结点进行一个全排列 然后找出带宽最少的组合 其实输入给出的数据量并不大 最多8个结点 不剪枝的话也就是8 个组合 应该
  • benchmark TPC-H postgreSQL

    写在前面 个人对TPCH benchma的理解 我接到这个任务的时候 描述是这样的 呀 用benchMarke生成TPC H然后测试一下 我第一反应就是benchMark是什么 TPCH是什么 现在把这个弄完一遍后来说一下我的理解 首先什么
  • windows查看WIFI无线网络密码

    方法一 通过查看无线属性查询 1 首先 点击电脑右下角的WiFi的图标 选择 打开网络和internet设置 或者选择打开设置 点击 更改适配器选项 2 选中无线网 查看此连接的状态 3 查看无线属性 4 然后选择上方的安全 选中显示字符
  • vue el-table 行排序 + 拖拽排序 简单粗暴

    1 行排序 HTML
  • mmdetection 报错 cats = self.dataset['categories'] KeyError: 'categories'

    如上图 报错 原因 coco训练集中没有categories字段 即数据集的标注json文件不对 解决方案 请参照coco数据集格式
  • 【华为OD统一考试A卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • PCL MeanShift点云聚类(C++详细过程版)

    目录 一 算法原理 1 原理概述 2 实现流程 3 参考文献 二 代码实现 三 结果展示 四 测试数据 本文由CSDN点云侠原创 爬虫网站请自重原文链接 一 算法原理 1 原理概述 均值漂移算法是一种非参数聚类技术 它不需要预先知道聚类的数
  • HTML、PHP实战:搭建一个网页登录页面。

    一 实验环境 MySQL5 7 26 FTP0 9 60 Apache2 4 39 我这里用的是PHPstudy小皮一键搭建的 数据库 二 登录页面 登录页面前端代码 文件名 denglu html
  • 人工智能学习笔记(一)Agent

    智能agent 开篇前言 agent的分类 1 简单反射agent 2 基于状态的反射agent 3 基于目标的agent 4 基于效用的agent 5 学习agent Exploration vs Exploitation 开篇前言 这段