OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开

2023-05-16

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

没想到,打开AI黑盒这件事,可能还要靠AI自己来实现了。

OpenAI的最新研究来了一波大胆尝试:

让GPT-4去解释GPT-2的行为模式。

结果显示,超过1000个神经元的解释得分在0.8以上——也就是说GPT-4能理解这些神经元。

323a9fbabc6f521a6815e77d7ecbd55c.png

要知道,“AI黑箱难题”长期以来是一个热议话题,尤其是大语言模型领域,人类对其内部工作原理的理解还非常有限,这种“不透明化”也进一步引发了人类对AI的诸多担忧。

目前推进AI可解释性研究的一个简单办法,就是逐个分析大模型中的神经元,手动检查以确定它们各自所代表的数据特征。

但对于规模已经达到百亿、千亿级别的大规模神经网络来说,工作量和工作难度就都涨了亿点点吧。

由此,OpenAI的研究人员想到,干嘛不让AI去自动化搞定这个大工程?

15e0d856d39d7a1940adf688bb798a70.png

在这项最新的研究中,他们将GPT-4打造成了一个理解AI行为模式的工具,把GPT-2超过30万个神经单元都解释了一遍,并和实际情况比对进行评分。

最终生成的解释数据集和工具代码,已对外开源

研究人员表示:未来,这种AI工具可能在改善LLM性能上发挥巨大作用,比如减少AI偏见和有害输出。

解释接近人类水平

具体来看,整个研究的步骤可以分为三步。

第一步,先给GPT-4一段文本,并展示GPT-2在理解这段文本时激活的神经元情况。

然后让GPT-4来解释,这段文本中神经元的激活情况。

7906d5fc1c26cc89b0a8c662aea99dc4.png

比如示例中给出了一段漫威复联的文本,GPT-4分析的激活神经元为:

电影、角色和娱乐

第二步,让GPT-4开始模拟,这些被解释的神经元接下来会做什么。

GPT-4给出了一段内容。

4711cebf2965527315d9b0543ca3ed95.png

第三步,让GPT-2真实的神经元激活来生成结果,然后和GPT-4模拟的结果进行比对,研究人员会对此打分。

aa53cd10ec96e2d10c6d0e0a079af033.png

在博客给出的示例中,GPT-4的得分为0.34.

使用这个办法,研究人员让GPT-4解释了GPT-2一共307200个神经元。

OpenAI表示,使用这一基准,AI解释的分数能接近人类水平。

从总体结果来看,GPT-4在少数情况下的解释得分很高,在0.8分以上。

70c3f660ab777e44de44ad60595dd3b1.png

他们还发现,不同层神经元被激活的情况,更高层的会更抽象。

4afa94e40afb7f7694180b5a37bfd64b.png

此外,团队还总结了如下几点结论:

  • 如果让GPT-4重复解释,它的得分能更高

  • 如果使用更强大的模型来解释,得分也会上升

  • 用不同的激活函数训练模型,能提高解释分数

总结来看就是,虽然GPT-4目前的表现一般,但是这个方法和思路的提升空间还有很大。

团队也强调,现在在GPT-2上的表现都不太好,如果换成更大、更复杂的模型,表现也会比较堪忧。

同时这种模式也能适用于联网的LLM,研究人员认为可以通过简单调整,来弄清楚神经元如何决策搜索内容和访问的网站。

此外他们还表示,在创建这个解释系统时并没有考虑商业化问题,理论上除了GPT-4,其他LLM也能实现类似效果。

接下来,他们打算解决研究中的这几个问题:

  • AI神经元行为十分复杂,但GPT-4给的解释非常简单,所以有些复杂行为还无法解释;

  • 希望最终自动找到并解释复杂的整个神经回路,神经元和注意力头一起工作;

  • 目前只解释了神经元的行为,但没解释行为背后的机制;

  • 整个过程算力消耗巨大。

网友:快进到AI创造AI

意料之中,这项研究马上在网络上引发热议。

大家的脑洞画风be like:“AI教人类理解AI。”

f662aba036942020d206c11e74567e93.png

“AI教人类关掉AI中存在风险的神经元。”

7dd61508facd58a1ec6995b27b884386.png

还有人开始畅想,AI理解AI会快速发展为AI训练AI(已经开始了),然后再过不久就是AI创造新的AI了。

a652291d1efe69eeb447a4dff9e7f27c.png

当然这也引发了不少担忧,毕竟GPT-4本身不还是个黑盒嘛。

人类拿着自己不理解的东西,让它解释另一个自己不理解的东西,这个风险emm……

c8f6ab9f2607e6bae8c804bf0e595df5.png

这项研究由OpenAI负责对齐的团队提出。

他们表示,这部分工作是他们对齐研究的第三大支柱的一部分:

我们想要实现自动化对齐。这种想法一个值得思考的方面是,它可能随着AI的发展而扩展更多。随着未来AI模型变得越来越智能,我们也能找到对AI更好的解释。

论文地址:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

参考链接:
[1]https://openai.com/research/language-models-can-explain-neurons-in-language-models
[2]https://www.globalvillagespace.com/tech/openais-tool-explains-language-model-behavior/

「量子位·视点」直播报名

以ChatGPT大语言模型为代表的自然语言人机交互方式,将如何改变我们的工作方式?企业又如何把握这场技术变革浪潮,充分释放数据的价值,驱动业务增长?

5月11日周四19:00,参与直播,为你解答~

f6374754e47760f89c6faea9cc99bc0d.png

点这里👇关注我,记得标星哦~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开 的相关文章

  • 写好“提示”改变“智造未来”-GPT4提示词驶入代码优化驾驶座心得

    开篇 在前端科技的新浪潮中 Artificial Intelligence AI 的逐渐成熟与发展引领着我们向前 其中OpenAI的GPT4提供了我们一种新的可能 帮助我们优化代码 使编程变得更加轻松 在这篇文章中 我们将一同探究如何在1
  • 智能音箱借ChatGPT重获“新生”?

    曾经靠语音助手红极一时的智能音箱 近年来的市场表现却欠佳 据洛图科技发布的最新 中国智能音箱零售市场月度追踪 报告显示 2022年中国智能音箱总销量为2631万台 同比下降28 市场销售额为75 3亿元 同比下降25 而IDC发布的2023
  • 大语言模型的演进

    大语言模型的演进 借着上次科技树剪枝的话题 大语言模型为人工智能科技树再次剪枝 让我们再来看看大语言模型这个分枝是如何生长的 也是经历6年的Google和OpenAI两家公司几次大战后的结果 第一回合 2017年6月 Google的6500
  • ChatGPT4使用体验

    GPT火了很久 被各种媒体吹上了天 但是因为工作原因 一直没有机会去真正的尝试 最近终于有了一天的空闲时间 就想着好好看看GPT当前到底能干啥 如下是我针对不同类别 分别提出不同问题 GPT给的回答 如果有兴趣可以看看 1 定性问题 对于一
  • 用GPT-4 写2022年天津高考作文能得多少分?

    正文共 792 字 阅读大约需要 3 分钟 学生必备技巧 您将在3分钟后获得以下超能力 积累作文素材 Beezy评级 B级 经过简单的寻找 大部分人能立刻掌握 主要节省时间 推荐人 Kim 编辑者 Linda 图片由Lexica 生成 输入
  • GPT带我学-设计模式-代理模式

    什么是代理模式 代理模式 Proxy Pattern 是设计模式中的一种结构型模式 它为其他对象提供一种代理以控制对这个对象的访问 代理模式有三个主要角色 抽象主题 Subject 真实主题 Real Subject 和代理 Proxy 抽
  • 开源了,我做了一个基于GPT的桌宠聊天系统:Pet-GPT!

    前言 最近chatgpt的热度高居不下 作为一个深度成谜者 发现大部分开发者在调用GPT的时候要不就是基于Tauri做本地窗口外接网页 要不就是web直接展示 在沉思苦想一段时间后 才发现好像没啥什么人用pyqt做啊 特别是没人用桌面宠物
  • 揭秘iPhone里的Transformer:基于GPT-2架构,分词器含emoji,MIT校友出品

    鱼羊 发自 凹非寺量子位 公众号 QbitAI 苹果Transformer的 秘密 让发烧友给扒出来了 大模型浪潮下 即使保守如苹果 也每逢发布会必提 Transformer 比如 在今年的WWDC上 苹果就已宣布 船新版本的iOS和mac
  • LangChain之Output parsers

    LangChain之Output parsers Output parsers将LLM输出的文本 转换为structured data CommaSeparatedListOutputParser 解析结果为List 提示词如下 def g
  • Unlimited “使用GPT-4 ”!它来了!

    备注本文末尾附录注册登录过程 平台介绍 聊天机器Chat fore人front ai是一为款基于人主工智能的题聊天的机器人主平台 旨在帮菜助企 业提可以高客户服务质是量和一效率 该平款台利用自然语精言处理技术和机器致学习的算法 能够自牛动排
  • chatGLM介绍

    一 简述 清华大学推出的ChatGLM的第二代版本 支持中文 效果好 清华大学的ChatGLM应该是中文大语言模型中最好的 要求低 可以在消费级的显卡上运行 二 链接 工程 https github com THUDM ChatGLM2 6
  • GPT专业应用:自动撰写宣传稿

    图片由Lexica 生成 输入 Staff working on product promotion 宣传稿是指按照有关政策文件或相关精神 以宣传某种主张 某项工作 某件事情等为目的 为获得理解 支持而撰写的应用文 基本格式包含四个要素 分
  • 基于开源大模型Vicuna-13B构建私有制库问答系统

    本教程专注在怎么使用已经开源的模型和项目 构建一个可以私有化部署的问答知识库 而且整体效果要有所保障 主要工作包括 选择基础模型 openAI claude 这些商用的 或者其他的开源的 这次我们选择 Vicuna 13B 开源有很多的知识
  • 【ChatGPT炒菜攻略】如何做韭菜

    ChatGPT可以化身为一名厨师 不仅有着扎实的厨艺基础和丰富的经验 而且也对食材的选取十分讲究 时常会寻找新鲜和有潜力的材料进行尝试和创新 从而创造出更加优秀和惊艳的佳肴 同时 我注重菜品的色 香 味 形均衡 追求将自然与文化相融合 以满
  • 如何使用 sgdisk 将 GPT 分区表复制到另一个磁盘

    什么是GPT分区 GPT GUID 分区表 是物理硬盘上分区表布局的标准 使用全局唯一标识符 GUID GPT 是 EFI 标准的一部分 定义分区表的布局 GPT 对于在大于 2TB 的磁盘上创建文件系统非常有用 对于较小尺寸的磁盘 通常我
  • lmg_Model Links and Torrents

    lmg Model Links and Torrents Changelog MDY 4 bit GPU Model Requirements 4 bit CPU llama cpp RAM Requirements LLaMA 16 bi
  • 第4章 用GPT-2生成文本

    BERT 是基于双向 Transformer 结构构建 而 GPT 2 是基于单向 Transformer 这里的双向与单向 是指在进行注意力计算时 BERT会同时考虑被遮蔽词左右的词对其的影响 融合了双向上下文信息 它比较适合于文本生成类
  • 用Python调用OpenAI API做有趣的事

    GPT 迭代过程概要表 版本 发布时间 训练方案 参数量 是否开放接口 GPT GPT 1 2018 年 6 月 无监督学习 1 17 亿 是 GPT 2 2019 年 2 月 多任务学习 15 亿 是 GPT 3 2020 年 5 月 海
  • 文心千帆为你而来

    1 前言 3月16号百度率先发布了国内第一个人工智能大语言模型 文心一言 文心一言的发布在业界引起了不小的震动 而文心一言的企业服务则由文心千帆大模型平台提供 文心千帆大模型平台是百度智能云打造出来的一站式大模型开发与应用平台 提供包括文心
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge

随机推荐