谭铁牛:人工智能 找风口不如找关口

2023-11-08

不过我们不能光打打嘴炮,如何克服困难和挑战,让人工智能帮到你的工作、你的事业呢?让我们将李开复的演讲内容,再结合一个实例,来给大家解释一下。

现在,假设你是一个程序员

虽然哥也是一媒体人,但黑起自己的行业来是丝毫不会手软的,假设你现在是一家媒体的IT部门人员,这家媒体每天做的最多,最重要的工作就是从别的网站复制文章过来,然后加一些自己的记号上传到自己的网站上去,而你虽然是一介码农,但是却心怀天下,想要拯救公司里那些苦逼的编辑。于是你决定自己编写一个程序,帮助编辑们一键完成,甚至自动完成这些复制文章的事,你应该怎么做?

当然,用人工智能来复制粘贴看起来是有点大材小用了,但这活看起来很机械,倒也需要一定的应变,比如网站的页面里除了正文外还有很多乱七八糟的广告链接,只要网站的设计者不会太蠢,设计出来的结果应该是人一眼就能看出来哪个部分是正文哪些是无关信息。但一个算法要如何识别正文和广告/无关链接的区别呢?而且算法如何在网站的内容中寻找到哪些是值得Copy的内容呢?(是谓“热点”)

最关键的是,细细一想,这些要注意的事项还真挺多。你平时学的If else似乎不够用了,你该用什么语言来完成你的惊世算法呢?

说到这里,我们就面临了李开复提到的目前的深度学习面临的第一个挑战:没有平台

深度学习的挑战之一:平台

人工智能目前还没有一个统一的平台。在深度学习方面,现在的人懂就是懂,不懂就是不懂。这就是为什么Google最近花了重金不断在挖业界顶尖的人才,给年轻人开出的年薪甚至超过200万美元。这些人也就是二十来岁,博士刚毕业不久,怎么会这么值钱呢?

为什么这么贵呢?李开复老师有提到,这些人被投入到各个领域的AI研究中去后,可能很快就能创造出千万美元甚至上亿美元的价值了。但他可能没有表达出来的一个意思是,现在的AI开发真的很难,很难,之所以这么难,就是因为没有平台。

 

人工智能发展最大的问题是没有平台化?

 

平台是一个比较玄乎的概念,因为现在人工智能的发展还处于一种摸着石头过河的状态,因此没有人能预测所谓的“平台”的准确形态是什么样,这话题铺开来讲可能能单独讲一篇文章,但简单来说,大概会是一种“统一标准”的状态。比如说现在一提神经网络算法人们就会想起很多种概念,CNN、RNN、DNN等等,而具体到应用实现的方法也千奇百怪。所有基于AI的编程,都是要从0开始编起,一点一点构筑起算法。但如果有一天有一个类似于iOS、安卓的东西,探索出了一种最优秀的算法(当然这只是打个比方,不一定有最优秀的算法。),并且将其集成进了某种程序中,后人如果想进行神经网络有关的开发,只需要调用它提供的API就能完成了。那样就能极大的简化深度学习开发的难度。

智搜(Giiso)信息成立于2013年是国内领先的“人工智能+资讯”领域技术服务商,在大数据挖掘、智能语义、知识图谱等领域都拥有国内顶尖技术。同时旗下研发产品包括编辑机器人、写作机器人等人工智能产品!凭借雄厚的技术实力,公司成立之初,就获得了天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

深度学习挑战之二:数据的收集和运算

当然作为一个心怀天下的码农,这点小事肯定是难不倒你的,你应该很快就找到了合适的语言系统,比如Tensorflow,比如Scikit,开开心心的编起了程序。不过接下来你要面对的问题可能就没有那么好解决了:它们都从两个方向分别决定着你的算法训练的效果:训练数据的量和训练的速度。李开复老师将这个问题拆成了两个问题,但我们认为,其实他们都是关于算法训练的问题,因此其实可以归于同一个问题。

深度学习的网络太大,需要海量的数据。

因为数据太多,所以计算特别的慢,所以需要非常大的计算量。

 

人工智能发展最大的问题是没有平台化?

如何识别网站内的正文位置倒还是个比较好解决的问题,如果你心一横,决定只从几大(十几大)主流媒体内复制文章的话,用if else都是可以解决的,毕竟虽然每个网站之间正文部分的规律不同,但每个网站内部的文章还是基本遵循相同规律的。实在想做一个通用的算法来说,规律也不难找,比如正文部分的文字密度会突然变大而html代码的密度则会暴跌,比如正文的始终基本都是<p></p>。如果网站每天能更新四五百篇文章的话,估计训练个十天左右就能达到非常高的准确度了。

难点在于“追热点”啊!

智搜(Giiso)信息成立于2013年,是国内首家专注于资讯智能处理技术研发及写作机器人核心软件开发和运营的高科技企业。公司成立之初,就获得了天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

互联网的热点每天都在变化,你的算法怎么知道今天的热点是什么?又如何知道算法正在扫描的这篇文章是不是跟热点有关的文章,写的如何?要让算法训练出判断这些信息的能力,怎么说也要扫描个几千万上下篇文章来训练吧?作为一个终极发烧友码农,你第一次感觉到了你面前的那台电脑里的8核i7和GTX Titan是那么的无力,哎,写个爬虫慢慢爬着先吧。看改天能不能改天网络低峰期用公司的服务器偷偷跑一跑。

要让深度学习算法自己进化到一个比较高的水平,李开复老师估计至少要有10亿级别的数据,如此庞大的数据是相当难以收集的。而且,只有这些数据都是你自己的时候,他们在你手中才能发挥出真正的价值,并且由于数据量的庞大其需要的运算量也是相当庞大的,要在深度学习领域大展身手,最好有自己的计算设备,比如拥有自己的服务器机群。因此我们看到,初期在人工智能有所建树的都是世界级的、像微软、谷歌和Facebook这样的公司,他们不仅拥有更多的资金、更好的人才,最重要的是,他们拥有海量的数据。

深度学习挑战之三:没有反馈

“有点奇怪但也合理:机器无法用人的语言告知做事的动机和理由。即便机器训练做了很棒的深度学习,人脸识别、语音识别做的非常棒,但它不能和人一样,它讲不出来这是怎么做到的。虽然有人也在做这方面的研究,但是在今天,如果一个领域是不断需要告诉别人该怎么做,需要向别人去解释为什么的,那这个领域对于深度学习来讲还是比较困难的。比如Alpha Go打败李世石,你要问Alpha Go是为什么走这步棋,它是答不上来的。”

转载于:https://my.oschina.net/rgznzx/blog/1861224

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

谭铁牛:人工智能 找风口不如找关口 的相关文章

随机推荐

  • 【SCL】博图SCL编程语言(1)

    初识博图scl语言 文章目录 目录 一 scl语言简介 1 介绍 2 相关问题 3 scl语言的编写环境 二 表达式和运算符 1 算术表达式 1 介绍 2 算术表达式使用 3 例题 2 关系表达式 1 介绍 2 使用 3 逻辑表达式 1 取
  • eclipse servers没有tomcat_Tomcat服务器入门详细教程

    前言 不是井里没有水 而是你挖的不够深 不是成功来的慢 而是你努力的不够狠 你好 我是梦阳辰 下面和我一起学习起来吧 文章目录 01 Tomcat概述 02 Tomcat服务器 03 使用Eclipse配置Tomcat服务器和新建项目 04
  • 关于2022年度深圳市重点实验室组建拟资助项目的公示

    各有关单位 根据 深圳市科技计划项目管理办法 有关规定 市科技创新委员会拟对2022年度深圳市重点实验室组建相关项目进行资助 现予公示 向社会征求意见 任何单位和个人对公布的项目持有异议的 请在公布之日起10天内以书面形式 注明通讯地址和联
  • 推荐系统学习笔记-冷启动

    简介 推荐系统的主要目标是将大量的标的物推荐给可能喜欢的海量用户 这里涉及到标的物和用户两类对象 任何互联网推荐产品 标的物和用户都是不断增长变化的 所以一定会频繁面对新标的物和新用户 推荐系统冷启动问题指的就是对于新注册的用户或者新入库的
  • 「Hive」json数据解析get_json_object函数的用法

    应用场景 提取以json字符串的方式存储的数据 用法 get json object expr path expr 包含格式正确的 JSON 的 STRING 表达式 或字段名 path 包含格式正确的 JSON 路径的 STRING 文本
  • Datawhale 李宏毅机器学习 Task1

    目录 一 简单理解机器学习 二 机器学习基本步骤 三 机器学习相关步骤 1 监督学习 2 半监督学习 3 迁移学习 4 无监督学习 5 监督学习中的结构化学习 6 强化学习 四 学习总结 一 简单理解机器学习 就像是生物本能 比如河狸修水坝
  • Jmeter-验证码(图片base64加密+uuid)

    适用于验证码为img 图片base64加密 标识 uuid 的情况 1 先下载OcrServer图片识别工具 2 添加验证码获取的http请求 3 通过json提取器获取img和uuid 4 调用http请求获取OcrServer识别的结果
  • ovirt超整合部署记录

    网络磁盘设置 root ovirt106 ping www 163 com PING z163picipv6 v bsgslb cn 221 233 240 109 56 84 bytes of data 64 bytes from 221
  • 【前端】neo4j导出json数据可视化

    占位贴 提醒自己有时间了把源码和思路提供一下
  • ArcgisOpr CXX0030

    这个错误我是找了好多天才找到了 AE ArcgisEngine 在用VC环境进行开发时 对license的初始化失败 并在VC的编译输出窗口中提示Could not bind to a valid ArcGIS installation 是
  • UnitTest单元测试框架解析【实用篇】

    UnitTest是展开自动化测试的基础 这个框架很重要 首先我们先自己写一个测试类 1 被测试类 Widthget py coding utf 8class Widthget def init self size 10 10 self si
  • 常用的正则表达式总结(慢慢增加中。。。)

    1 0 100 内的数字 不包含0 100 排除0 0 0 00 保留三位小数 1 9 1 2 d 1 3 0 0 9 1 2 1 9 2 0 100 内的数字包含0 100 保留三位小数 d 1 2 d 1 3 100
  • Java将jar包打成exe包

    如何获取jar包 1 如果是maven项目 2 如果是SpringBoot项目 添加maven插件 直接使用maven插件进行打包 Jar打包成exe 准备 相关的jar Exe4j应用程序 地址 https www ej technolo
  • 第三届Python数据分析职业技能比赛A题

    第三届Python数据分析职业技能比赛A题 Hello World 赛题 竞赛背景 字段说明 考核目标 任务 任务一 数据预处理 任务二 数据可视化 任务三 数据分析 任务一思路 1 2 1 3 任务二思路 2 1 2 2 2 3 任务三思
  • 禅道程序员的10条原则

    在一个阴雨的早上 我坐在桌子旁 开始想如何才能高效的工作 在我成为一个自由职业者之前 我有很长一段时间都很努力工作 但收效甚微 我在2006开始接触禅学 我马上意识到 古代的禅宗大师们几百年前早就已经知道现今的程序员应该如何工作 虽然我很讨
  • 如何通过官方渠道下载任意版本的Spring相关的jar包

    1 进入官网http spring io 2 第二步 点击PROJECTS 3 点击SPRING FRAMEWORK 4 点击上一步中GitHub图标 进入下面的页面 第五步 把第四步出现的页面往下拉 找到 Spring Framework
  • python Matplotlib画图之调整字体大小的示例

    本文来源于公众号 csdn2299 喜欢可以关注公众号 程序员学府 本篇文章主要介绍了python Matplotlib画图之调整字体大小的示例 小编觉得挺不错的 现在分享给大家 也给大家做个参考 一起跟随小编过来看看吧 一张字体调整好的示
  • 不能在slot上绑定和触发事件

    在 slot 上进行事件的监听和分发 这是不可能的 组件的 slot 由调用它的父组件提供 这意味着所有事件都应该与父组件相关联 尝试去倾听这些变化意味着你的父子组件是紧密耦合的 可以使用 parent 来操作 div div
  • 5.1广度优先遍历的递归与迭代实现;

    队列先进先出的性质 符合 广度优先遍历时 一层一层的遍历逻辑 lc102 102 二叉树的层序遍历 107 二叉树的层次遍历II 199 二叉树的右视图 637 二叉树的层平均值 429 N叉树的层序遍历 515 在每个树行中找最大值 11
  • 谭铁牛:人工智能 找风口不如找关口

    不过我们不能光打打嘴炮 如何克服困难和挑战 让人工智能帮到你的工作 你的事业呢 让我们将李开复的演讲内容 再结合一个实例 来给大家解释一下 现在 假设你是一个程序员 虽然哥也是一媒体人 但黑起自己的行业来是丝毫不会手软的 假设你现在是一家媒