ChatGPT研究分析：GPT-4做了什么

2023-11-12

前脚刚研究了一轮GPT3.5，OpenAI很快就升级了GPT-4，整体表现有进一步提升。追赶一下潮流，研究研究GPT-4干了啥。

本文内容全部源于对OpenAI公开的技术报告的解读，通篇以PR效果为主，实际内容不多。主要强调的工作，是“Predictable Scaling”这个概念。

上一版ChatGPT的主要挑战是，因为模型的训练量极大，很难去进行优化（ChatGPT是fine-tuning的模式）。因此，OpenAI希望能够在模型训练初期，就进行优化，从而大幅提升人工调优迭代的效率。而想要进行调优，就得知道当前模型的效果如何。因此，这个问题就被转化为了：如何在模型训练初期，就能够预测最终训练完成后的实际效果。

从结果来看，ChatGPT实现了，仅仅执行千分之一到万分之一的训练量，就可以大致预测模型的结果。

实现原理相对简单，就是在某一个模型的不同训练阶段进行实际效果测量，然后做函数拟合，发现符合幂等曲线。然后再基于采样值，测算一下幂等函数的相关参数，下一轮就可以只进行少量训练，就去预测最终效果了。

至于其他效果上的优化，OpenAI没有进一步解读原理，但整体应该还是基于“训练-奖励”的优化模型，去生成更针对性的奖励模型（比如增加法律、安全之类的奖励判断），以实现更优的效果。

原版内容如下：

3 Predictable Scaling
A large focus of the GPT-4 project was building a deep learning stack that scales predictably. The primary reason is that for very large training runs like GPT-4, it is not feasible to do extensive model-specific tuning. To address this, we developed infrastructure and optimization methods that have very predictable behavior across multiple scales. These improvements allowed us to reliably predict some aspects of the performance of GPT-4 from smaller models trained using 1, 000× – 10, 000× less compute.
3.1 Loss Prediction
The final loss of properly-trained large language models is thought to be well approximated by power laws in the amount of compute used to train the model [35, 36, 2, 14, 15].
To verify the scalability of our optimization infrastructure, we predicted GPT-4’s final loss on our internal codebase (not part of the training set) by fitting a scaling law with an irreducible loss term (as in Henighan et al. [15]): L(C) = aCb + c, from models trained using the same methodology but using at most 10,000x less compute than GPT-4. This prediction was made shortly after the run started, without use of any partial results. The fitted scaling law predicted GPT-4’s final loss with high accuracy (Figure 1).
3.2 Scaling of Capabilities on HumanEval
Having a sense of the capabilities of a model before training can improve decisions around alignment, safety, and deployment. In addition to predicting final loss, we developed methodology to predict more interpretable metrics of capability. One such metric is pass rate on the HumanEval dataset [37], which measures the ability to synthesize Python functions of varying complexity. We successfully predicted the pass rate on a subset of the HumanEval dataset by extrapolating from models trained with at most 1, 000× less compute (Figure 2).
For an individual problem in HumanEval, performance may occasionally worsen with scale. Despite these challenges, we find an approximate power law relationship −EP [log(pass_rate(C))] = α∗C−k
where k and α are positive constants, and P is a subset of problems in the dataset. We hypothesize that this relationship holds for all problems in this dataset. In practice, very low pass rates are difficult or impossible to estimate, so we restrict to problems P and models M such that given some large sample budget, every problem is solved at least once by every model.
We registered predictions for GPT-4’s performance on HumanEval before training completed, using only information available prior to training. All but the 15 hardest HumanEval problems were split into 6 difficulty buckets based on the performance of smaller models. The results on the 3rd easiest bucket are shown in Figure 2, showing that the resulting predictions were very accurate for this subset of HumanEval problems where we can accurately estimate log(pass_rate) for several smaller models. Predictions on the other five buckets performed almost as well, the main exception being GPT-4 underperforming our predictions on the easiest bucket.
Certain capabilities remain hard to predict. For example, the Inverse Scaling Prize [38] proposed several tasks for which model performance decreases as a function of scale. Similarly to a recent result by Wei et al. [39], we find that GPT-4 reverses this trend, as shown on one of the tasks called Hindsight Neglect [40] in Figure 3.
We believe that accurately predicting future capabilities is important for safety. Going forward we plan to refine these methods and register performance predictions across various capabilities before large model training begins, and we hope this becomes a common goal in the field.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ChatGPT

机器学习

人工智能

Powered by 金山文档

ChatGPT研究分析：GPT-4做了什么的相关文章

【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
微信公众号AI爆文项目入门

今日尝试了进行AI爆文的项目其核心逻辑是不依赖于传统的打造个人IP 而是使用ChatGPT 文心一言等大语言模型进行创作并发表到微信公众号平台实现低粉爆文的效果通过系统流量池的推荐来实现收益一篇10W 的文章的收益在800到几千
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
5_机械臂运动学基础_矩阵

上次说的向量空间是为矩阵服务的 1 学科回顾从科技实践中来的数学问题无非分为两类一类是线性问题一类是非线性问题线性问题是研究最久理论最完善的而非线性问题则可以在一定基础上转化为线性问题求解线性变换数域 F 上线性空间V中的变
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

敏捷开发“松结对编程”实践之三：共同估算篇（大型研发团队，学习型团队，139团队，师徒制度，敏捷设计，估算扑克，扑克牌估算）

转载自 http blog csdn net cheny com article details 6587277 本文是松结对编程系列的第三篇之一之二之三之四之五之六之七之八此系列之九及之后文章请见栏目总目录估算是经
使用FFMPEG将WebM转为MP4或MKV

PS5 自带的录像功能导出的格式是WebM 同时视频是HDR默认60帧我们有时需要转成其他格式保存下面两个命令可以将其转成mkv或者mp4格式 ffmpeg i test webm vf zscale t linear npl 100
C++基础之const

C 中什么是常量常量在程序运行期间不能发生改变的变量常量不限制类型但是在定义之后值不可修改 c 中定义常量有两种方法使用宏定义 define预处理器来自C语言 define DEF WINDOW WIDTH 720 使用cons
java简单毕设_[手把手教你做毕设](专栏介绍)

引子我并没有写过毕设相关的博文但是每周都有不少人咨询我毕设相关的系统开发问题 OK 好像很久很久以前写过一个 JSP Servlet培训班作业管理系统说实话写得一般确实一般不是谦虚以致于心有愧欠感觉貌似大概可能也许差不多误
55个mes项目解决方案及案例_我调查了 20 个 MES 项目实施情况，发现了这些

本文首发于智能制造社区作者Raylan 昨天智能制造社区的 Raylan 同学设计了个简单的问卷想分析下 MES 项目的执行情况所以就在我们社区微信群里简单做了抽样此次调研是匿名调研问卷接收数量大约在44 63之间问卷返回数量
从0开始写Vue项目-Vue实现用户数据批量上传和数据导出

从0开始写Vue项目环境和项目搭建慕言要努力的博客 CSDN博客从0开始写Vue项目 Vue2集成Element ui和后台主体框架搭建慕言要努力的博客 CSDN博客从0开始写Vue项目 Vue页面主体布局和登录注册页面慕言要
IDEA常用快捷键（Windows）

Ctrl S 保存文件 Ctrl C 复制 Ctrl X 剪切 Ctrl V 粘贴 Ctrl Z 撤销 Ctrl Y 重做 Ctrl F 查找 Ctrl Shift F 全局查找 Ctrl R 替换 Ctrl D 复制当前行或选中区域到下一
编写一个名为collatz()的函数，它有一个名为number的参数。如果参数是偶数，那么collatz()就打印出number // 2，并返回该值。如果number是奇数，collatz()就打印

要求编写一个名为collatz 的函数它有一个名为number的参数如果参数是偶数那么collatz 就打印出number 2 并返回该值如果number是奇数 collatz 就打印并返回3 number 1 使用软件 vsco
深度学习情感分析_使用深度学习进行情感分析

深度学习情感分析介绍 Introduction The growth of the internet due to social networks such as Facebook Twitter Linkedin Instagram
Mule的学习（一、mule的认知）

参考 https blog csdn net a victory article details 70216772 https blog csdn net lishehe article details 33394895 https www
U盘读写速度优化

从android设备上向U盘上传文件时间比较长优化后时间大幅度缩短经过几次测试 8k的缓存可以达到传输速度和容错率的平衡点超过了太容易出错低于8k传输速度会下降 byte buffer new byte 1024 8 使用的第三
MMEditing如何添加自己的新模型

如何使用商汤的框架MMEditing添加一个自己的新模型嘞因为自己平时做超分辨率所以这里用BasicVSR的改动作为例子一般需要在MMEditing中添加三个文件配置 backbones以及restores BasicSR原始的地址
LeetCode-312.戳气球、动态规划

有 n 个气球编号为0 到 n 1 每个气球上都标有一个数字这些数字存在数组 nums 中现在要求你戳破所有的气球如果你戳破气球 i 就可以获得 nums left nums i nums right 个硬币这里的 left 和
C语言文件包含

一个C语言程序由若干源程序文件组成而一个源文件还可以将另一个源文件的全部内容包含进来即将指定的源文件包含在当前文件中例如下有两个源文件file1 c和file2 c file1 c int max int x int y int z
因易用性导致的TongWeb使用误区

误区一使用TongWeb企业版本即按照 TongWeb7企业版用户手册 pdf 手册操作安装好TongWeb后doc目录下有手册 TongWeb手册的正确观看顺序 1 最先看 TongWeb7快速使用手册 pdf 了解基本的安装使用
【基于用户的】协同过滤推荐算法（UserCF算法的实现）

协同过滤算法在推荐算法领域应用十分广泛主要有基于用户 UserCF 和基于物品 ItemCF 两种不同的类型基于用户的推荐算法它是一种发现兴趣相似的用户的算法假如你正在建设的是一个学习资源共享平台你的用户群体有着大致稳定的专业与相
JAVA烟花原理

java烟花原理 0 缘由两天前无聊玩了下蜘蛛纸牌发现最后胜利时的烟花效果挺漂亮的琢磨Java能不能弄出来类似的效果上网搜了一下整合资料基本全是抄的之后自己写了一份重点讲原理源码放文末上一个效果图 1 概述其实烟花说白
Springboot整合Mybatis（注解开发）

前言 Springboot整合Mybatis实现一个最基本的增删改查功能整合的方式有两种一种是注解形式的也就是没有Mapper xml文件还有一种是XML形式的我推荐的是使用注解形式为什么呢因为更加的简介减少不必要的错误 1
基于TensorFlow的花卉识别

概要设计数据分析本次设计的主题是花卉识别数据为TensorFlow的官方数据集flower photos 包括5种花卉雏菊蒲公英玫瑰向日葵和郁金香的图片并有对应类别的标识 daisy dandelion roses sun
ChatGPT研究分析：GPT-4做了什么

前脚刚研究了一轮GPT3 5 OpenAI很快就升级了GPT 4 整体表现有进一步提升追赶一下潮流研究研究GPT 4干了啥本文内容全部源于对OpenAI公开的技术报告的解读通篇以PR效果为主实际内容不多主要强调的工作是 Pre

ChatGPT研究分析：GPT-4做了什么

ChatGPT研究分析：GPT-4做了什么 的相关文章

随机推荐

热门标签

ChatGPT研究分析：GPT-4做了什么的相关文章