GPT-4 剑指多模态,前有谷歌 PaLM-E,AI 格局要变?

2023-11-14

本文首发自 HyperAI超神经微信公众号~

美东时间 3 月 14 日,OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天机器人背后的技术基础。OpenAI 称,GPT-4 能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已表现出人类水平。

OpenAI 发布 GPT-4

GPT-4 突袭落地:三大特性吸睛

GPT-4 此次更新,主要有三个飞跃式提升的新特性:文字输入限制提升、具备识图能力以及更强的推理能力。

内容更长更丰富

据 OpenAI 说法,GPT-4 能够处理超过 25,000 个单词的文本。Medium 作家 Michael King 对此谈道,此特性允许创建长篇内容,例如文章和博客,能够为企业和个人节省时间和资源。

此外,GPT-4 对大量文本的处理使扩展对话成为可能,这意味着,在服务业等行业中,人工智能聊天机器人可以对客户的查询提供更详细、更具洞察力的响应。同时,此特性还能进行高效地文档搜索和分析,从而成为金融、法律和医疗保健等行业的有利工具。

GPT-4 处理文本能力优于 ChatGPT

更具推理能力

OpenAI 表示,GPT-4 生成的答案错误更少,正确性要比 GPT-3.5 高 40%。同时,GPT-3.5 与 GPT-4 在闲聊时差别不大,但若任务够复杂,GPT-4 要比 GPT-3.5 更可靠、更有创意且能处理更多微妙指令。据悉,GPT-4 参加了多种基准考试测试,其中在 Uniform Bar Exam、LSAT 等考试中,得分要高于 88% 的应试者。

「做题家」 GPT-4

亮眼新特性:多模态

除了答题能力更胜一筹之外,GPT-4 另一个亮眼的特性就是可以接受文本和图像形式的输入,图像类型可以是照片、图表以及屏幕截图等。比如以下例子:

问题:这幅图有什么好笑的? 逐条描述它。

GPT-4 回答:该图像显示了一个包含三个图片的 「 Lightning Cable 」 适配器。
图1:一个智能手机与 VGA 连接器(一个大型,蓝色,15 针连接器通常用于计算机显示器)插入其充电端口。
图2:「 Lightning Cable 」 适配器的封装,上面有一个 VGA 连接器的图片。
图3:VGA 连接器的特写镜头,最后是一个小型 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。
这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬性。

GPT-4 分析梗图

需要注意的是,此特性还处于研究者预览版本,并没有对外开放,OpenAI 尚未透露开放时间。

「它并不完美」

在介绍 GPT-4 的新功能的同时,OpenAI 也坦言了它的一些局限性。与之前版本的 GPT 一样,GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等问题。换句话说,目前来看 GPT-4 并不完美。但 OpenAI 也表示,这些都是他们正在努力解决的问题。

多模态模型:谷歌抢先上「前菜」

虽然多模态是 GPT-4 一大亮眼特性,但不得不说,GPT-4 并不是唯一的多模态模型。

微软 AI 技术专家 Holger Kenn 介绍所谓多模态模型,是其不仅可以将文本相应地翻译成图像,还可以翻译成音频和视频。而早在本月初,谷歌就已发布史上最大的视觉语言模型——PaLM-E (Pathways Language Model with Embodied),一个可用于机器人的嵌入式多模态语言模型。PalM-E 整合了 540B 的 PaLM 语言模型和 22B 的 ViT 视觉模型,因此具有 562B 参数。

研究人员在多个任务,包括机器人操作规则、视觉问答和图像字幕中等进行了端到端的训练,评估结果表明该模型能够能有效地解决各种推理任务,并在不同的观察模态和多个实体上表现出了「正向转移 (positive transfer)」,并且该模型除了接受机器人任务训练,还在视觉-语言任务上有出色的表现。
PaLM-E 将传感器与文本输入结合,建立语言和感知连结
展示示例中,当人类发出「把抽屉里的薯片拿给我」的指令时,PaLM-E 可以为一个装有机械臂的机器人生成一个行动命令并执行行动,其通过分析来自机器人摄像头的数据实现,而无需对场景进行预处理。
机器人完成了「 把抽屉里的薯片拿给我」的指令
除了赋予机器人以上能力,PaLM-E 本身也是视觉语言模型,可以看图说故事,或者依据图片内容回答问题。

多模态模型等同「iPhone 」发布?

如今看来,整个 AI 领域正在紧锣密鼓地开展军备赛。面对 ChatGPT 的爆火,谷歌紧急发布 Bard 步步紧逼,近日又再次反击,开放自家的大语言模型 API 「PaLM API」,同时还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。

虽然 OpenAI CEO Sam Altman 前不久在接受采访时,仍对 GPT-4 的发布时间保持神秘,宣称「我们要在发布时,确定它是安全且负责任的」,但 GPT-4 这一波突袭,难免让人猜测是否是由于面对谷歌等巨头不断地反击和围剿,迫使它的步伐加速。

需要注意的是,Sam 采访中还谈到一个观点,人工智能的下一个进化阶段正是多模态大模型的到来。「 我认为这将是一个大趋势…更普遍的是,这些强大的模型将成为真正的新技术平台之一,这是自移动平台以来我们没有拥有过的。」

此次 GPT-4 的重磅发布,是否标志着多模态模型时代正式到来,尚需要时间证明,但其强大的能力已经开始让很多开发者甚至普通人担忧自己是否会被其取代。这一点,或许微软德国 CEO Marianne Janik 几天前的公开言论可以作为答案,她认为当前 AI 发展就像当年「iPhone 出现」,同时,她也明确表示这不是要取代工作,而是要以与以前不同的方式完成重复性任务。

「变革会使得传统的工作模式发生变化,但我们也应该看到,这种变化增加了很多新的可能性,因此,也会出现让人兴奋的新职业。」

参考链接:

[1]https://openai.com/research/gpt-4

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GPT-4 剑指多模态,前有谷歌 PaLM-E,AI 格局要变? 的相关文章

随机推荐

  • etcd之日志和快照管理

    系列文章目录 浅谈分布式系统与一致性协议 一 浅谈分布式系统与一致性协议 二 浅谈分布式系统与一致性协议 三 深入浅出之etcd 深入浅出之etcd 二 etcd版本之v3 etcd之安全性阐述 etcd的多版本并发控制 目录 系列文章目录
  • 文件包含漏洞file_include

    什么是文件包含 程序开发人员通常会把可重复使用的函数写到单个文件中 在使用某些函数时 直接调用此文件 无需再次编写 这种调用文件的过程一般被称为文件包含 几个文件包含函数及特点 include函数 当使用该函数包含文件时 只有代码执行到 i
  • 在云计算中实现安全、可伸缩、细粒度数据的访问控制

    原文 Achieving Secure Scalable and Fine grained Data Access Control in Cloud Computing 在云计算中实现安全 可伸缩 细粒度数据的访问控制 摘要 云计算是一个新
  • 那些年Google公开的大数据领域论文

    Mikio L Braun柏林工业大学机器学习学博士后 TWIMPACT联合创始人兼首席数据科学家 在其个人博客上总结了Google近几年大数据领域的论文 并发表了自己的见解 以下为译文 主流的大数据基本都是MapReduce的衍生 然而把
  • C练题笔记之:Leetcode-393. UTF-8 编码验证

    题目 给定一个表示数据的整数数组 data 返回它是否为有效的 UTF 8 编码 UTF 8 中的一个字符可能的长度为 1 到 4 字节 遵循以下的规则 对于 1 字节 的字符 字节的第一位设为 0 后面 7 位为这个符号的 unicode
  • Unity2020版本RenderSettings的命令位置(晕轮的属性)《Unity游戏开发入门经典》

    在Unity游戏开发入门经典这本书中 第六章灯光里 有出现关于晕轮的设置 在Edit gt Render Settings中 但书内的Unity已经是老版本了 在新版本中 关于晕轮的设置已经变了位置 在Unity2020中 单击 菜单栏Wi
  • elementUI中el-form-item中的label的样式修改方法

    示例 将el form表单的label测试字体样式改为红色
  • pytorch vgg16 猫狗识别

    第一次做猫狗识别的任务 遇到点问题记录一下 主要是数据集的问题 下载完猫狗数据集后 打开有两个文件夹分别是train和test 这两个文件夹中并没有子文件夹 直接将其导入 train dataset torchvision datasets
  • Putty配色方案

    在使用Putty默认配色方案时 使用vim打开文件 如果遇到折叠代码 其折叠提示看不见 折叠提示与背景色同色 均是黑色 容易造成文件是空的或文件不全等误解 本文就是为了解决该问题而修改配色方案 该配色方案来源于网路资料 亲测可以使用 引用网
  • Mac终端不管输入什么指令都显示No such file or directory?

    写了一个python文件 在Mac终端输入指令总是显示 python can t open file 这是我的文件名 Errno 2 No such file or directory 看了半天 发现是环境变量的事 bash profile
  • 网络面试题:HTTPS为什么可以保证安全,怎么加密的?

    网络面试题 HTTPS为什么可以保证安全 怎么加密的 https www bilibili com video BV1w4411m7GL from search seid 3199089843343135819 一 HTTPS是什么 HTT
  • LInkedList的模拟实现

    在之前的文章笔者介绍了链表的实现 无头单向非循环链表的实现 感兴趣的各位老铁可以点进来看看 https blog csdn net weixin 64308540 article details 128397961 spm 1001 201
  • Ubuntu安装java

    转自 https www cnblogs com ziyue7575 p 13898610 html java8 apt安装 参考 https www cnblogs com zzy1024 p 11406269 html 若是没有配置国内
  • Motion Library for Unity——(Rokoko)

    unity动画插件Motion library 介绍 unity中项目设置 步骤 介绍 Motion Library是Unity编辑器的一个插件 允许你在编辑器中搜索 预览和购买市场上的动作资产 rokoko官网 unity中项目设置 需要
  • RFID系统信号通信过程

    如图
  • React 函数组件与类组件属性默认值

    一 函数组件 方式一 使用 defaultProps 设置默认值 import React from react import PropTypes from prop types function Sub props return lt g
  • 正点原子STM32 H743完成RT Thread下的LAN8720 网卡驱动 LWIP跑起来

    目前RT官网对H743的支持力度还不理想 本想按照F407的搞定网卡的套路来搞定H743的网卡 因为phy也是LAN 8720 以为会很轻松 没想到却是一条遍布荆棘的路 好在已经有不少大佬做了不少工作 终于在巨人肩膀人完成了网卡的驱动 能p
  • leetcode 1491 去掉最低工资和最高工资后的工资平均值

    leetcode 1491 去掉最低工资和最高工资后的工资平均值 题目描述 给你一个整数数组 salary 数组里每个数都是 唯一 的 其中 salary i 是第 i 个员工的工资 请你返回去掉最低工资和最高工资以后 剩下员工工资的平均值
  • 模型评估标准常用指标

    一 分类指标 样本中存在两种两种标签 样本真实标签和模型预测标签 根据这两个标签可以得到一个混淆矩阵 每一行代表样本的真实类别 数据总数表示该类别的样本总数 每一列代表样本的预测类别 数据总数表示该类别的样本总数 分类模型的评价指标主要基于
  • GPT-4 剑指多模态,前有谷歌 PaLM-E,AI 格局要变?

    本文首发自 HyperAI超神经微信公众号 美东时间 3 月 14 日 OpenAI 重磅推出大型多模态模型 GPT 4 GPT 4 是 ChatGPT 和 Bing AI 聊天机器人背后的技术基础 OpenAI 称 GPT 4 能接受图像