AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?(转)

2023-10-28

原文地址:http://36kr.com/p/5106157.html

 

谷歌旗下人工智能公司 DeepMind 发布了一篇新论文,它讲述了团队如何利用 AlphaGo 的机器学习系统,构建了新的项目 AlphaZero。AlphaZero 使用了名为「强化学习」(reinforcement learning)的 AI 技术,它只使用了基本规则,没有人的经验,从零开始训练,横扫了棋类游戏 AI。

AlphaZero 首先征服了围棋,又完爆其他棋类游戏:相同条件下,该系统经过 8 个小时的训练,打败了第一个击败人类的 AI——李世石版 AlphaGo;经过 4 个小时的训练,打败了此前最强国际象棋 AI Stockfish,2 个小时打败了最强将棋(又称日本象棋)AI Elmo。连最强围棋 AlphaGo 也未能幸免,训练 34 个小时的 AlphaZero 胜过了训练 72 小时的 AlphaGo Zero。

AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?

图 | AlphaZero 视角下,在比赛中赢,平局或输的局数(来自 DeepMind 团队论文)

强化学习这么强大,它是什么?

知名 AI 博主 Adit Deshpande 来自加利福尼亚大学洛杉矶分校(UCLA),他曾在博客中发表过「深度学习研究评论」系列文章,解读了 AlphaGo 胜利背后的力量。他在文章中介绍到,机器学习领域可以分为三大类:监督学习、无监督学习和强化学习。强化学习可以在不同的情景或者环境下学习采取不同的行动,以此来获得最佳的效果。

AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?

图 | Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

我们想象一个小房间里的一个小机器人。我们没有编程这个机器人移动或走路或采取任何行动。它只是站在那里。我们希望它移动到房间的一个角落,走到那里会得到奖励分数,每走一步将会损失分数。我们希望机器人尽可能到达指定地点,机器人可以向东、南、西、北四个方向运动。机器人其实很简单,什么样的行为最有价值呢,当然是指定地点。为了获得最大的奖励,我们只能让机器人采用最大化价值的行动。

AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?

图 | Adit Deshpande 的博客《Deep Learning Research Review Week 2: Reinforcement Learning》

AlphaZero 完爆棋类游戏 AI,它的价值有多大?

AlphaGo Zero 是个突破性的进展,AlphaZero 也是吗?国外专家分析,后者在技术上有四点突破:

一、AlphaGo Zero 根据胜率进行优化,只考虑胜、负两种结果;而 AlphaZero 则是根据结果进行优化,考虑到了平局等可能。

二、AlphaGo Zero 会改变棋盘方向进行强化学习,而 AlphaZero 则不会。围棋的棋盘是堆成的,而国际象棋和将棋则不是,因此 AlphaZero 更通用。

三、AlphaGo Zero 会不断选择胜率最好的版本替换,而 AlphaZero 则只更新一个神经网络,减少了训练出不好结果的风险。

四、AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的,选取会对估计结果产生很大影响。而 AlphaZero 所有对弈都重复使用相同的超参数,因此无需针对游戏进行特定调整。

第四范式资深机器学习架构师涂威威告诉极客公园,AlphaZero 有突破也有局限:

一、DeepMind 这篇论文核心是证明了 AlphaGo Zero 策略在棋类问题上的通用性;在方法上并没有特别亮眼的地方。AlphaZero 其实是 AlphaGo Zero 策略从围棋往其他类似棋类游戏的拓展版,并战胜了基于其他技术的棋类游戏 AI,它们在此之前是最好的。

二、AlphaZero 也只是解决规则明确、完美信息博弈的类似棋类游戏的「通用」引擎,对于更复杂的其他问题,AlphaZero 依然会遇到困难。

此前,旷世科技孙剑解读 AlphaGo Zero 时曾表示,「强化学习就算可以扩展很多别的领域,用到真实世界中也没有那么容易。比如说强化学习可以用来研究新药品,新药品很多内部的结构需要通过搜索,搜索完以后制成药,再到真正怎么去检验这个药有效,这个闭环代价非常昂贵,非常慢,你很难像下围棋这么简单做出来。」

三、AlphaZero 也需要非常多的计算资源才能解决相对更为「简单」的棋类问题,成本非常高。据极客公园了解,DeepMind 在论文中称,他们使用了 5000 个第一代 TPU 生成自对弈棋谱,并用了 64 个第二代 TPU 来训练神经网络。此前有专家向某媒体表示,TPU 虽然性能很惊艳,但是成本也会很高,有某国际风投机构的投资人对此还发过朋友圈,其中的一句话就是:「这么贵的芯片,我也就是看看......」

四、目前的 AlphaZero 在围棋上离「围棋上帝」可能还有距离,赢了人不代表就是上帝,目前的网络结构、训练策略是不是最优的,其实还是值得进一步研究的。

虽然有一定的局限,但其应用场景值得深挖。在让机器学习更为通用的研究方向上,有很多其他研究领域值得关注,比如 AutoML、迁移学习等等。同时,如何进一步以更少的代价(计算代价、领域专家代价)获得更为通用的 AI 引擎,让 AI 在实际应用中产生更大的价值也是非常值得关注的。

滴滴出行就是一个特别的领域,据极客公园了解,滴滴在匹配司机和乘客的过程中,就使用了人工智能技术,从不合理的直线距离匹配(可能隔着河),到指派到乘客处用时最少的车,经历了很多技术优化。他们也遇到了问题,并为之努力:在训练人工智能系统时,可以使用 GPU 集群等技术,但当让司机和乘客匹配时,要求实时性,配置也会降低,因此如何保证准确,也是研究人员一直在探讨的问题。

但涂威威对 DeepMind 在「通用人工智能」方向上的努力表示肯定。

 

图 | 北大AI公开课《胡郁:人工智能+,共创新时代》

第四范式首席科学家、国际人工智能协会(IJCAI)主席、香港科技大学计算机系系主任的杨强教授曾提到,计算机真正可以思维的「强」人工智能(通用人工智能)其实是想实现「从 0 到 1」的突破,而目前包括工业界和计算机应用学科等领域,其实只是想让计算机的行为表现像智能一样,这可以称为「从1 到 N」。

但是,科学家们一直在不断探索通用人工智能。DeepMind 就是这方面的先行者之一,好像登山一样,只要一步步攀登,有一天人类必然登顶。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?(转) 的相关文章

  • Windows Server 2008 R2 CVE-2012-0002/CVE-2012-0152 漏洞处理

    CVE 2012 0002 CVE 2012 0152 漏洞处理 发现漏洞 补丁信息查找 过程示例 下载补丁 补丁安装 漏洞处理结束 发现漏洞 通过nmap扫描windows server 发现上述 CVE 2012 002 CVE 201
  • Box2d学习笔记五:API学习之b2World

    以前做Android开发 每次需要查文档的时候 某个类某个方法 我就情不自禁的会把相关的方法全部看一遍 有些没用过的就猜它的意思 然后测试 我觉得这样的学习方法能快速的了解API 了解该类能完成的功能 所以按照我的惯例 学习box2d我也是
  • JDBC链接Access数据库

    JDBC链接Access数据库 1 新建Access数据库 mdb1 mdb 新建表 user 2 通过JDBC ODBC桥接器链接 首先设置odbc数据源 具体步骤为 打开控制面板 控制面板 gt 管理工具 gt 数据源 ODBC 打开数
  • ImportError: libGL.so.1: cannot open shared object file: No such file or directory缺少共享库

    原因 缺少共享库 解决方法 1 centos 1 yum install mesa libGL x86 64 测试可用 2 查到的方法 没有测试过 2 Ubuntu sudo apt update sudo apt install libg
  • ubuntu安装WPS2019以及解决缺少字体问题

    环境 ubuntu22 04 2 LTS 步骤 1 去官网下载最新的WPS 官网地址如下 WPS Office 2019 for Linux 支持多版本下载 WPS官方网站 2 sudo dpkg i 安装包 deb 3 安装完成 首次用W
  • FFmpeg 视频处理入门教程(转)

    FFmpeg 视频处理入门教程 阮一峰 FFmpeg 是视频处理最常用的开源软件 它功能强大 用途广泛 大量用于视频网站和商业软件 比如 Youtube 和 iTunes 也是许多音频和视频格式的标准编码 解码实现 FFmpeg 本身是一个
  • 一步一步学习Android TV/盒子开发(一)

    写在前面的话 本人做了几年的机顶盒和Android电视上的应用开发 写这些文章只是为了让初次接触大屏开发的同学能够快速上手 TV端因为没有触控操作 只有遥控操作 所以焦点处理 控制以及按键监听是其主要特点 焦点处理 设置可获取焦点 布局中需
  • pytorch量化中torch.quantize_per_tensor()函数参数详解

    torch quantize per tensor input scale zero point dtype 实现8位量化 摘要 对该函数各个参数的分析 量化 计算机运算时 默认32位浮点数 若将32位浮点数 变成8位定点数 会快很多 目前
  • Node.js 学习(二) 创建第一个应用

    如果我们使用PHP来编写后端的代码时 需要Apache 或者 Nginx 的HTTP 服务器 并配上 mod php5 模块和php cgi 从这个角度看 整个 接收 HTTP 请求并提供 Web 页面 的需求根本不需 要 PHP 来处理
  • 信息化建设第三方验收测试报告要求

    信息化建设是企业未来高质量发展的必由之路 也是企业法治的必要手段 信息化建设指品牌利用现代信息技术来支撑品牌管理的手段和过程 随着计算机技术 网络技术和通信技术的发展和应用 企业信息化已成为品牌实现可持续化发展和提高市场竞争力的重要保障 信
  • Html+css(第二天)

    1 列表标签 场景 在网页中按照行展示关联性的内容 如 新闻列表 排行榜 账单等 特点 按照行的方式 整齐显示内容 种类 无序列表 有序列表 自定义列表 1 1 无序列表 场景 在网页中表示一组无顺序之分的列表 如 新闻列表 特点 列表的每
  • kubernetes集群部署springcloud项目【AL】

    kubernetes集群部署springcloud项目 AL 先手工做 非自动化 环境 192 168 73 138 master 192 168 73 139 node1 192 168 73 140 node2 192 168 73 1
  • 修改tomcat catalina.bat调整jvm内存及tomcat窗口标题

    开发这么久了 总会时不时碰到内存溢出的错误 知道应该去 catalina 中去设置一下jvm的内存大小 可是每次都忘记具体在哪个位置 而且 很多时候 出现内存溢出的环境都不是本机 而是服务器搭建环境的时候 而此时也没太多时间让自己去读一下
  • 一道模拟赛的题

    前言 这是一个不错的题啊 在这里记录一下 题意 听说不是原创题 那我就放上来了 应该没有关系吧QAQ 有一个 n m 的地图 地图上的每一个位置可以是空地 炮塔或是敌人 你需要操纵炮塔消灭敌人 对于每个炮塔都有一个它可以瞄准的方向 你需要在
  • 怎么将服务器上的文件变成共享文件,服务器上文件夹怎么共享

    服务器上文件夹怎么共享 内容精选 换一换 华为云帮助中心 为用户提供产品简介 价格说明 购买指南 用户指南 API参考 最佳实践 常见问题 视频帮助等技术文档 帮助您快速上手使用华为云服务 CPH服务提供云手机批量控制功能 该功能可以通过A
  • 并发下的Map常见面试题

    HashMap 和 HashTable 有什么区别 java中的另一个线程安全的与HashMap极其类似的类是什么 同样是线程安全 它与HashTable在线程同步上有什么不同 HashMap 与 ConcurrentHashMap的区别
  • unityshader 消融效果

    代码 讲解都在注释上面了 冯乐乐的 unity shader 入门精要 相关知识 透明度 阴影计算 普通光照 法线贴图 Properties BurnAmount BurnAmount Range 0 1 0 LineWidth LineW
  • Web安全之SSRF漏洞

    内容 SSRF漏洞的危害 SSRF漏洞的挖掘 SSRF漏洞的防御 SSRF漏洞原理概述 背景 SSRF Server Side Request Forgery 服务器端请求伪造 是一种由攻击者构造形成由服务端发起请求的一个安全漏洞 一般情况
  • kubernetes环境搭建

    kubernetes介绍 Kubernetes是Google在2014年6月开源的一个容器集群管理系统 使用Go语言开发 Kubernetes也叫K8S K8S是Google内部一个叫Borg的容器集群管理系统衍生出来的 Borg已经在Go

随机推荐

  • python win32gui.FindWindow()找不到窗口(亲测有效)

    今天又是不聪明的小侦探热爱敲代码的一天 前言 今天来为大家解决win32gui FindWindow 找不到窗口的问题 本来打算制作一个游戏脚本 去网上找了点教程自学 遇到了使用win32gui FindWindow 语句能打开web等窗口
  • 算术收益率与对数收益率(几何收益率)

    日收益率 假设 Pt P t P t 为某一投资品种的净值 算术收益率 Pt 1 1 rt Pt P t 1
  • python中的pickle模块:序列化与反序列化

    pickle模块实现了数据序列和反序列化 pickle模块使用的数据格式是python专用的 能够把Python对象直接保存到文件中 而不需要把他们转化为字符串 也不用底层的文件访问操作把它们写入到一个二进制文件中 Pickle模块中最常用
  • UE4_Python_自动化导入素材脚本_音频_图片_FBX

    1 新建项目 开启插件 2 项目设置 gt Python 3 资源加载脚本 AssetFunctions py 目录跟上图的目录一致 导入FBX import unreal asset path E fireAxe FBX asset pa
  • Blender 3.5 面的操作(二)

    目录 1 面操作 1 1 面的切割 1 2 整体切分 1 3 面的法向 1 4 正面 背面 1 5 翻转法向 1 6 填充面 1 7 面倒角 1 8 循环面 1 9 X Ray 透视模式 1 面操作 1 1 面的切割 切割工具 Knife
  • 服务器vmware新建虚拟机教程,如何创建虚拟机教程全解

    这部分教程我们将学习的是如何创建虚拟机 在创建虚拟机之前 vSphere Client是必要的软件之一 它用于访问ESX主机或vCenter的图形管理用户界面 vSphere Client安装在Windows计算机上 它是与虚拟基础架构进行
  • eclipse的workspace删除

    在最近的一个爬虫项目中 发现build进程很慢 然后就换了个workspace 但还是很慢最后也出错了 然后想删除这个workspace 我尝试删除了F盘对应的workspace文件夹 但是令人不解的是 eclipse竟然还可以switch
  • linux上安装和启动docker

    1 安装Docker 这里我们将Docker安装到CentOS7上 最好是将yum更新下 sudo yum update 2 安装需要的软件包yum util 如果不安装则第三步会出现yum config manager command n
  • 性能测试---LoadRunner

    目录 1 LoadRunner对比Jmeter的优势 2 LoadRunner三个组件之间的关系 3 学习VUG的使用 3 1创建性能测试脚本并进行录制 第一步 打开VUG 创建一个新的性能测试的脚本 第二步 对新建的脚本进行设置 第三步
  • macbook pro适合python编程么_编程应该选macbook pro还是thinkpad T(从性能角度出发)?...

    谢邀 背景 工作中要是用Python C 和一点点Java 需要用到很多机器学习算法 首先我把几个机型的推荐款列一下 所有机型 8代CPU版本 仅推荐该系列i5款 ThinkPad X系列 推荐X390 个人认为X系列近几年最良心的产品 性
  • 如何编译Python文件?

    编译Python文件 一 编译Python文件 二 批量生成 pyc 文件 一 编译Python文件 为了提高加载模块的速度 强调 强调 强调 提高的是加载速度而绝非运行速度 python解释器会在 pycache 目录中下缓存每个模块编译
  • PRD概述

    一 Pentaho 整体架构 cc 二 Client tools 1 Report Designer 报表创建工具 如果想创建复杂数据驱动的报表 这是合适工具 2 Design Studio 这是基于eclipse的工具 你可以使用它来创建
  • 更改Ubuntu软件镜像为清华镜像 sourcelist

    1 将原始的source list复制替换 sudo cp etc apt sources list etc apt sources list old 2 使用vim打开source list sudo vim etc apt source
  • STM32F103移植RT-Thread完整过程

    前言 RT Thread官网有很多通过IDE一键移植的方法 本文选择的是手动移植 文末提供移植好的完整工程 RT Thread 有3个版本 分别是标准版本 Nano版本 Smart版本 本文选择的是最简单的Nano版本 RT Thread
  • TMS320F28377X芯片SCI模块RS485通信,数据末尾被0xFF替换的问题解决

    SCI串口通信 用RS232方式 SCI模块 用如下的 直接这样 就可以发送 void Write SCIC Uint8 pBuf Uint16 len rs232 Uint16 i for i 0 i lt len i while Sci
  • 如何打包jar

    http www 2cto com kf 201204 129495 html 方法一 通过jar命令 jar命令的用法 下面是jar命令的帮助说明 用法 jar ctxui vfm0Me jar file manifest file en
  • Redis Cluster常用命令

    创建一个Redis Cluster redis cli cluster create host1 port1 host2 port2 host3 port3 查看node信息 redis cli p 7000 cluster nodes R
  • Excel 冻结窗格 - 锁定表格行和列

    Excel 冻结窗格 锁定表格行和列 在 Excel 中 冻结窗格用于实现锁定表格行和列的功能 如果表格的行数 列数较多时 一旦滚动屏幕 则标题行 列跟着滚动 在处理数据时难以分清各行 列数据对应的标题 冻结的标题增强表格编辑的直观性 在
  • springboot读取yml配置文件的三种方式

    文章目录 1 yml示例 2 Value 3 Environment 4 ConfigurationProperties 1 yml示例 name 胡思源 对象 person name name age 1 数组 aoteman 迪迦 赛罗
  • AlphaZero 完爆前辈 AlphaGo,这个人工智能新突破价值有多大?(转)

    原文地址 http 36kr com p 5106157 html 谷歌旗下人工智能公司 DeepMind 发布了一篇新论文 它讲述了团队如何利用 AlphaGo 的机器学习系统 构建了新的项目 AlphaZero AlphaZero 使用