OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子

2023-05-16

©作者 | 机器之心编辑部

来源 | 机器之心

斯坦福大学联合谷歌大脑使用「两步蒸馏方法」提升无分类器指导的采样效率，在生成样本质量和采样速度上都有非常亮眼的表现。

虽然 ChatGPT 似乎让人类正在接近重新创造智慧，但迄今为止，我们从来就没有完全理解智能是什么，不论自然的还是人工的。

认识智慧的原理显然很有必要，如何理解大语言模型的智力？OpenAI 给出的解决方案是：问问 GPT-4 是怎么说的。

5 月 9 日，OpenAI 发布了最新研究，其使用 GPT-4 自动进行大语言模型中神经元行为的解释，获得了很多有趣的结果。

可解释性研究的一种简单方法是首先了解 AI 模型各个组件（神经元和注意力头）在做什么。传统的方法是需要人类手动检查神经元，以确定它们代表数据的哪些特征。这个过程很难扩展，将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。

所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分，并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本，并公开了这些 GPT-2 神经元解释和分数的数据集。

论文链接：

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

GPT-2 神经元图：

https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html

代码与数据集：

https://github.com/openai/automated-interpretability

这项技术让人们能够利用 GPT-4 来定义和自动测量 AI 模型的可解释性这个定量概念：它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性，我们现在可以衡量理解神经网络计算目标的进展了。

OpenAI 表示，利用他们设立的基准，用 AI 解释 AI 的分数能达到接近于人类的水平。

OpenAI 联合创始人 Greg Brockman 也表示，我们迈出了使用 AI 进行自动化对齐研究的重要一步。

具体方法

使用 AI 解释 AI 的方法包括在每个神经元上运行三个步骤：

步骤一：用GPT-4生成解释

给定一个 GPT-2 神经元，通过向 GPT-4 展示相关文本序列和激活来生成对其行为的解释。

模型生成的解释：对电影、角色和娱乐的引用。

步骤二：使用GPT-4进行模拟

再次使用 GPT-4，模拟被解释的神经元会做什么。

步骤三：对比

根据模拟激活与真实激活的匹配程度对解释进行评分 —— 在这个例子上，GPT-4 的得分为 0.34。

主要发现

使用自己的评分方法，OpenAI 开始衡量他们的技术对网络不同部分的效果，并尝试针对目前解释不清楚的部分改进技术。例如，他们的技术对较大的模型效果不佳，可能是因为后面的层更难解释。

OpenAI 表示，虽然他们的绝大多数解释得分不高，但他们相信自己现在可以使用 ML 技术来进一步提高他们产生解释的能力。例如，他们发现以下方式有助于提高分数：

迭代解释。他们可以通过让 GPT-4 想出可能的反例，然后根据其激活情况修改解释来提高分数。
使用更大的模型来进行解释。随着解释模型（explainer model）能力的提升，平均得分也会上升。然而，即使是 GPT-4 给出的解释也比人类差，这表明还有改进的余地。
改变被解释模型（explained model）的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI 表示，他们正在将 GPT-4 编写的对 GPT-2 中的所有 307,200 个神经元的解释的数据集和可视化工具开源。同时，他们还提供了使用 OpenAI API 上公开可用的模型进行解释和评分的代码。他们希望研究界能够开发出新的技术来生成更高分的解释，同时开发出更好的工具来通过解释探索 GPT-2。

他们发现，有超过 1000 个神经元的解释得分至少为 0.8 分，这意味着根据 GPT-4，它们占据了神经元的大部分顶级激活行为。这些得到很好解释的神经元中的大多数都不是很有趣。然而，他们也发现了许多有趣但 GPT-4 并不理解的神经元。OpenAI 希望随着解释的改进，他们可能会迅速发现对模型计算的有趣的定性理解。

以下是一些不同层神经元被激活的例子，更高的层更抽象：

看起来，GPT 理解的概念和人类不太一样？

OpenAI未来工作

目前，该方法还存在一些局限性，OpenAI 希望在未来的工作中可以解决这些问题：

该方法专注于简短的自然语言解释，但神经元可能具有非常复杂的行为，因而用简洁地语言无法描述；
OpenAI 希望最终自动找到并解释整个神经回路实现复杂的行为，神经元和注意力头一起工作。目前的方法只是将神经元的行为解释为原始文本输入的函数，而没有说明其下游影响。例如，一个在周期（period）上激活的神经元可以指示下一个单词应该以大写字母开头，或者增加句子计数器；
OpenAI 解释了神经元的这种行为，却没有试图解释产生这种行为的机制。这意味着即使是得高分的解释在非分布（out-of-distribution）文本上也可能表现很差，因为它们只是描述了一种相关性；
整个过程算力消耗极大。

最终，OpenAI 希望使用模型来形成、测试和迭代完全一般的假设，就像可解释性研究人员所做的那样。此外，OpenAI 还希望将其最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而，在这之前，还有很长的路要走。

参考文献

[1] https://openai.com/research/language-models-can-explain-neurons-in-language-models

[2] https://news.ycombinator.com/item?id=35877402

[3] https://www.reddit.com/r/MachineLearning/comments/13d4b3o/language_models_can_explain_neurons_in_language

[4] https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子的相关文章

写好“提示”改变“智造未来”-GPT4提示词驶入代码优化驾驶座心得

开篇在前端科技的新浪潮中 Artificial Intelligence AI 的逐渐成熟与发展引领着我们向前其中OpenAI的GPT4提供了我们一种新的可能帮助我们优化代码使编程变得更加轻松在这篇文章中我们将一同探究如何在1
让GPT成为您的科研加速器丨GPT引领前沿与应用突破之GPT4科研实践技术与AI绘图

GPT对于每个科研人员已经成为不可或缺的辅助工具不同的研究领域和项目具有不同的需求如在科研编程绘图领域 1 编程建议和示例代码无论你使用的编程语言是Python R MATLAB还是其他语言都可以为你提供相关的代码示例 2 数据可
chatGLM-Windows环境安装

Windows系统下环境安装一概要不同安装方式安装python 安装Nvidia驱动安装cuda与cuddn 安装PyTorch与TensorFlow 二安装文件百度网盘链接 https pan baidu com s 1lb
惊爆GPT OpenAPI的调用以及API内的参数详解

开篇随着人工智能技术的飞速发展自然语言处理技术 NLP 在过去几年也取得了突飞猛进的突破在这个过程中一个重要且可称为颠覆者的模型 GPT 3 第三代生成式预训练 Transformer 模型的诞生无疑大大加速了 NLP 领域的前
ChatGPT追祖寻宗：GPT-1论文要点解读

论文地址 Improving Language Understanding by Generative Pre Training 最近一直忙着打比赛好久没更文了这两天突然想再回顾一下GPT 1和GPT 2的论文于是花时间又整理了一下
大语言模型的演进

大语言模型的演进借着上次科技树剪枝的话题大语言模型为人工智能科技树再次剪枝让我们再来看看大语言模型这个分枝是如何生长的也是经历6年的Google和OpenAI两家公司几次大战后的结果第一回合 2017年6月 Google的6500
ChatGPT4使用体验

GPT火了很久被各种媒体吹上了天但是因为工作原因一直没有机会去真正的尝试最近终于有了一天的空闲时间就想着好好看看GPT当前到底能干啥如下是我针对不同类别分别提出不同问题 GPT给的回答如果有兴趣可以看看 1 定性问题对于一
GPT垂直领域相关模型现有的开源领域大模型

对于ToC端来说广大群众的口味已经被ChatGPT给养叼了市场基本上被ChatGPT吃的干干净净虽然国内大厂在紧追不舍但目前绝大多数都还在实行内测机制大概率是不会广泛开放的毕竟各大厂还是主盯ToB ToG市场的从华为在WAI
gpt_academic使用注意事项

不要开启360等安全卫士
MBR2GPT：将 MBR 转换为 GPT

几年前 Windows操作系统通常安装在主引导记录 MBR 分区上但是随着固件 UEFI 和更大磁盘的安全进步现在需要 GUID 分区表 GPT 磁盘来利用这些新功能如果您将系统磁盘配置为 MBR 磁盘则MB42GPT exe实用
星星之火：国产讯飞星火大模型的实际使用体验（与GPT对比）

AIGC技术内容创作征文全网寻找AI创作者快来释放你的创作潜能吧文章目录 1 前言 2 测试详情 2 1 文案写作 2 2 知识写作 2 3 阅读理解 2 4 语意测试重点关注 2 5 常识性测试重点关注 2 6 代码理解与生成
Transformer 架构和 BERT、GPT 和 T5 的兴起：初学者指南

在广阔且不断发展的人工智能 AI 领域有些创新不仅会留下深刻的印象而且会带来巨大的影响他们重新定义了整个领域的轨迹在这些突破性的创新中 Transformer 架构成为变革的灯塔这类似于工业革命期间蒸汽机的发明推动人工智能进入一
GPT专业应用：自动撰写宣传稿

图片由Lexica 生成输入 Staff working on product promotion 宣传稿是指按照有关政策文件或相关精神以宣传某种主张某项工作某件事情等为目的为获得理解支持而撰写的应用文基本格式包含四个要素分
03 什么是预训练（Transformer 前奏）

博客配套视频链接 https space bilibili com 383551518 spm id from 333 1007 0 0 b 站直接看配套 github 链接 https github com nickchen121 Pr
GPT时代，是否还愿意将你的代码开源呢？

日常只是偶发的想法仅供讨论 GPT是生成式AI 生成式的前提也是基于大量的学习资源如果你的代码开源或者进入到大模型的学习库 GPT的能力可以迅速学习并掌握你的代码 GPT可以将你的代码提供给其他人这个过程基本没有任何成本也无需遵循
第3章 ChatGPT简介

3 1ChatGPT厚积薄发最近工智能公司OpenAI推出的ChatGPT风靡全球其上线仅两个月注册用户破亿 ChatGPT包含丰富的知识不仅能更好地理解人类的问题和指令流畅进行多轮对话还在越来越多领域显示出解决各种通用问题和
【ChatGPT炒菜攻略】如何做韭菜

ChatGPT可以化身为一名厨师不仅有着扎实的厨艺基础和丰富的经验而且也对食材的选取十分讲究时常会寻找新鲜和有潜力的材料进行尝试和创新从而创造出更加优秀和惊艳的佳肴同时我注重菜品的色香味形均衡追求将自然与文化相融合以满
历时半年，研发了这款毕业设计作品 - 免费的 AI 镜像网站，欢迎体验，知无不言

历时半年研发了这款毕业设计作品免费的 AI 镜像网站欢迎体验知无不言网址 https ai cocoai top 使用魔法后体验效果更佳 ai浪潮火了快两年了在这信息变革的当下我决定为我的大学生涯画上一个完美的句号开发一款可
GPT与ArcGISPro结合编程，地理空间分析，图绘制、渲染

在地学领域 ArcGIS几乎成为了每位科研工作者作图数据分析的必备工具而ArcGIS Pro3除了良好地继承了ArcMap强大的数据管理制图空间分析等能力还具有二三维融合大数据矢量切片制作及发布任务工作流时空立方体等特色功
景联文科技GPT教育题库：AI教育大模型的强大数据引擎

GPT 4发布后美国奥数队总教练卡耐基梅隆大学数学系教授罗博认为这个几乎是用刷题方式喂大的AI教育大模型的到来意味着人类的刷题时代即将退出历史舞台未来教育将更加注重学生的个性化需求和多元化发展借助GPT和AI教育大模型为每位

随机推荐

我怀疑正点原子的无人机有模仿这本书

正点原子的无人机的保护框和这本书里面的无人机的保护框一模一样我发现这个也是类似 xff0c 是不是他们这种微型无人机都是差不多模型的 xff1f
一些嵌入式软件工程师的要求

通信协议 xff0c 还有什么总线协议总线协议出现频率非常之高 xff0c 基本时必要条件 xff0c 好好学学我看华清的STM32那节里面有讲你的STM32确实得重新系统学一学真的总线通信协议几乎必出现 xff01 而这方面你似乎
野火给的STM32嵌入式学习路线

这里面包括了串口 xff08 xff08 STM32库开发实战指南里面有讲 xff09 xff0c FreeRTOS和网络编程 xff0c 基本是就把嵌入式软件工程师的招聘主要要求囊括进去了
从觉得简单 ------ 觉得难 ------ 再到觉得简单

从觉得简单觉得难再到觉得简单我觉得就是一个看山是山看山不是山 xff0c 看山还是山的过程你以前觉得简单是因为你轻浮 xff0c 用别人的代码轻松实现功能 xff0c 觉得挺简单的 xff0c 没什么的 xff0c 32呀 xff0
一些驱动的实例

周立功的嵌入式Linux开发教程下册里有一些驱动开发的实例
协议栈（英语：Protocol stack），又称协议堆叠，是计算机网络协议套件的一个具体的软件实现。

https blog csdn net Hello MyDream article details 85096070 协议是个标准 xff0c 是约定 xff1b 协议栈是协议的实现 xff0c 可以理解为代码函数库供上层应用调用商业
这个居然在无人机项目（航拍功能）中使用了了路由器，openwrt ！

这个居然在无人机项目 xff08 航拍功能 xff09 中使用了了路由器 xff0c openwrt xff01 xff01 xff01 xff01 xff01 xff01 xff01 佩服啊 xff0c 这么来看无人机的项目可以进一步集成
可以自己写的路由器项目（不用openwrt）

摘自李兴华的 Linux网络编程我感觉他这个就比较好 xff0c 不用什么openwrt xff0c 就自己写 xff0c 融合了多线程和网络编程 xff0c 我觉得这个项目挺棒的也应该能让你更好掌握路由器的原理 xff0c 就有点像f
北京内推 | 华为诺亚方舟实验室招聘自动驾驶预测/规控/仿真算法研究员

合适的工作难找 xff1f 最新的招聘信息也不知道 xff1f AI 求职为大家精选人工智能领域最新鲜的招聘信息 xff0c 助你先人一步投递 xff0c 快人一步入职 xff01 华为华为诺亚方舟实验室 xff08 Noah 39 s
关于路由器和交换器局域网内互联的那叫交换机，连接局域网和外网的那才是路由器。

局域网内互联的那叫交换机 xff0c 连接局域网和外网的那才是路由器所以你当时弄OZO时也知道当时是把路由器当交换机使用的对吧当时还记得买过一个专门的交换机如果当时那个直播系统要通过外网传播访问 xff0c 可能似乎就需要把那个路由器
OZO与MEC联调示意图

当时实际是把流媒体服务器放在北京移动机房 xff0c 等于OZO通过Live服务器推流经过光纤到北京移动机房的流媒体服务器 xff0c 中间大概几公里的样子 xff0c 运动场这边的路由器也是通过光纤连接到北京移动机房的流媒体服务器 xff
OZO+5G测试图

这个更简单 xff0c 原有OZO直播系统IP都不需要改 xff0c 直接接入5G即可下面可以看到当时OZO Live服务器的推流地址是10 68 240 70 xff0c 就是流媒体服务器的地址 xff0c 也就是实际IP地址也没有改动
OZO与上海光网络联调

这是17年十月份的时候具体好像只需要把IP地址改到和它们同一个局域网就可以了 xff0c 它们光网络应该也只是取代其中一个传输链路不像MEC取代了路由器不对 xff0c 它们光网络好像是取代了路由器的 xff0c 当时好像手机是连接的它
OZO+蜗牛云测试

下面的棘突来自于我自己写的的周报的word版本 xff0c 网盘有备份推公网似乎只需要改一下推流地址和拉流地址 xff0c 这时没有流媒体服务器了嘛 xff0c 那就只需要将OZO Live服务器用网线接上公网就可以了 xff0c 手机也
我发现写网络编程的书里面也会写多线程，写并发服务器

可见我这篇博文 xff1a https blog csdn net sinat 16643223 article details 106880627 本身华清的课程里面多线程编程和网络编程就是挨着讲的 xff0c 前后两个单元李兴华的 L
wuming飞控使用注意的一些细节

电池电压不要低于3 5V 遥控器开电源前 xff0c 需要把四个拨盘都往上打 xff0c 不然开电后遥控器会报错用不了到手飞怎么操作可以看下面这个视频 xff0c 几步就可以立马飞起来 https www bilibili com vid
发现一个不错的讲pixhawk（PX4）的网站

https www ncnynl com archives 201810 2628 html 这个网站似乎涉及的东西很多
我多次看到阿木实验室了

之前是在我的这篇博文 xff1a https blog csdn net sinat 16643223 article details 106767226 刚刚我在之前熟悉的TB店苍穹四轴最近出的一款SLAM 43 无人机里面居然也看到了阿
控制理论结构图——一目了然全面了解控制理论（这个已不是最新的）

还是去看最新版的吧 xff0c 在 https blog csdn net sinat 16643223 article details 108882423 61 61 61 61 61 61 61 61 61 61 61 61 61 61
OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子

作者机器之心编辑部来源机器之心斯坦福大学联合谷歌大脑使用两步蒸馏方法提升无分类器指导的采样效率 xff0c 在生成样本质量和采样速度上都有非常亮眼的表现虽然 ChatGPT 似乎让人类正在接近重新创造智慧 xff0c 但迄今为

OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子

OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子 的相关文章

随机推荐

热门标签

OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子的相关文章