GPT,GPT-2,GPT-3

2023-10-28

视频讲解：GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

论文链接：

GPT: https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf

GPT-2: https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

GPT-3: https://arxiv.org/pdf/2005.14165.pdf

GPT

文章标题：Improving Language Understanding by Generative pre-Training

摘要

在自然语言理解里，有很多不一样的任务，虽然我们有很多大量的没有标记的文本文件，标好的数据是比较少的，这使得我们要去在标好的数据上，训练出分辨模型的话，会比较困难，因为数据相对较少。

如何解决这个问题：

1、先在未标记的数据上训练一个预训练模型，这个预训练模型是一个语言模型；

2、接下来再在标好的子任务上训练一个分辨的微调模型

（这个在计算机视觉领域，八九年前就已经是主流的算法，但在NLP领域一直没有流行，因为在NLP领域没有像imagenet那么大规模标好的数据。

虽说在机器翻译领域也许能够做到100万量级，但一个句子和一个图片不在一个尺度上面，一张图片含有的信息，那个像素的信息比一个句子里面能去抽取的信息来的多得多，所以一张图片可能能换10个句子，这也就意味着至少有一千万级别的句子级别的标好的数据集才能够训练比较大的模型，这导致在很长一段时间里，深度学习在NLP领域的进展没有那么顺利，直到GPT和后面BERT的出现，才打开局面。这里还是像CV那样先训练好预训练模型再做微调，不一样的是使用未标记的文本，然后GPT系列后面的文章在做zero shot走了另外一大步，如果说前面五年CV在引领整个潮流的话，那最近几年的创新可以看到来自NLP领域，而且这些创新也在反馈回CV，比如之前读过的MAE这篇文章，就是把BERT用回在计算机视觉上面）

跟之前工作的区别是，在微调的时候构造跟任务相关的输入，从而使得只要很少的改变模型的架构就可以了。

1、引言

怎么样更好的利用无监督的文本，以前最好的模型还是词嵌入模型。

用未标记的数据的困难：（1）不知道用什么样的优化目标函数，一堆文本的损失函数不知道到底是什么样子，虽然有很多选择，比如机器翻译或者文本一致性，但是并没有发现某一个目标函数在一些任务上特别好，只是在一个任务上比较好，主要取决于目标函数和任务的相关度有多高；（2）怎样有效的把学到的文本的表示传递到下游的子任务上面（NLP领域子任务差别较大,没有一个简单有效的方式，使得一种表示能够一致的牵引到所有的子任务中。）

GPT提出了一个半监督的方法，在未标记的文本上面训练一个比较大的语言模型，然后再在子任务上面微调

模型基于transformer架构。跟RNN模型相比，transformer在迁移学习时学到的feature更稳健一些，可能是因为transformer更有结构化的记忆，使其能够处理更长的文本信息，从而能够抽取出更好的句子层面和段落层面的语义信息。在做迁移的时候，用的是一个跟任务相关的输入表示，

3、模型

怎样在未标记的数据上训练模型，怎么样微调，每个子任务的输入如何表示

3.1 未标记的数据上做预训练

假设有一个未标记的文本U={u1,…,un}（每个词表示成ui，它是个有序的信息，不会交换词的顺序）GPT 使用一个标准的语言模型的目标函数来最大化下面的似然函数：

$L1(U)= \sum_{i}^{}logP(u_i|u_{i-k},....,u_{i-1},\Theta )$

（具体来说语言模型预测第i个词出现的概率，第i个词记为ui，把ui前面的k个词，ui-k到ui-1,k代表上下文窗口的大小，输入序列的长度，每次取出k个连续的词，再预测k个词后面的词是什么。）

即预测是用一个模型，这个模型在记成Θ的地方，给定k个词，预测这k个词下一个词的概率，把每一个这样的词（i范围为1-n)的最大概率，全部加起来就得到目标函数，这个地方即为L1（代表第一个目标函数）

这些参数采用随机梯度下降进行训练。

在我们的实验中，我们使用了一个muti-layer Transformer解码器的语言模型，这是Transformer的一个变体。

h0 = UWe + Wp

预测词u的概率，把前面k个词 U=( $u_{-k}$ ，……， $u_{-1}$ )做词嵌入投影，加上位置编码，得到第一层输入

hl = transformer_block(hl−1) ∀i ∈ [1, n]

接下来做n层transformer块，每一层把上一层的输出作为输入得到这一层的输出

P(u) = softmax( $h_{n}W_{e}^{T}$ )

最后得到n层transformer块后，进行一个投影，进行softmax就得到概率输出。

其中U=( $u_{-k}$ ，……， $u_{-1}$ )是标记的上下文向量，n是层数，我们是标记嵌入矩阵，Wp是位置嵌入矩阵。

3.2 微调

给定一个长为m的词序列x1，……，xm，以及其对应的标签y，预测y的概率。

步骤：把词序列放进前面训练好的模型里面，然后得到transformer块的最后一层输出（即hm对应的输出），再乘以输出层，再做一个softmax，就得到其概率。

P ( y | x 1 , . . . , x m ) = softmax ( $h_{l}^{m}W_{y}$ ) .

微调里面所有带标记的这些序列对，把序列x1到xm输入进去以后，计算真实的标记的概率

$L_{2}(\mathbb{C})=\sum_{(x,y)}^{}logP(y|x^{1},....,x^{m})$ l

此外，我们还发现，将语言建模作为微调的辅助目标有助于学习，改进监督模型的泛化，加速收敛。使用这样的辅助目标提高了性能。具体来说，我们优化了以下目标（权重为λ）：

L3(C)=L2(C)+λ∗L1(C)

总的来说，我们在微调过程中需要的唯一额外参数是Wy和分隔符标记的嵌入（下面在3.3节中描述）。

微调时有两个目标函数，第一个是给定一个序列预测下一个词，第二个是给定完整序列，预测序列对应的标号。

3．3 特定的输入转换

第一类是最常见的分类，给定一句话或者一段文本，来判断其对应的标号，比如说一个用户对一个产品的评价，是正面的还是负面的。

这里的做法是，把要分类的一段文字在前面放一个初始的词元，后面加一个抽取的词元（extract），然后做成一个序列，序列放进transformer的解码器里，然后模型对最后一个词抽取的特征放进一个线性层里，线性层投影到要标号的空间，比如说要做10分类，线性层输出大小为10，在训练的时候，对每一个文本和标号对，把文本变成上图所示的序列，然后标号发放在线性层后面参加训练，在预测的时候，只拿到序列的信息，直接做预测即可。

与之前语言模型有一点区别，线性层是新加的，在微调的时候，重新构造了一个新的线性层，里面的全都可能是随机初始化的，它输出的大小和标号的大小是一致的

第二类是蕴含，就是给定一段话，再问一个假设，然后看前面这段话，有没有蕴含假设提出来的东西。例如：a送给b一束玫瑰，假设是a喜欢b，那么我前面这句话是支持这个假设的，若假设是a讨厌b，那么前面这段话是不支持这个假设的，这个假设就不成立；若假设是a和b是邻居，那么可以说前面这个假设既不支持也支持。

所以这个就是三分类的问题，给定两段文本，然后做一个三分类的问题，在表达的时候就是把这两个文本串成一个长的序列，

GPT2:Language Models are Unsupervised Multitask Learners

做了一个新的百万级别的数据集webtext，比之前的wikipedia和bookscorpus更大。提出zero-shot的设定。

现在一个主流的途径就是对一个任务收集一个数据集，然后再在上面训练好的模型做预测，因为现在模型的泛化性不是很好，在一个数据集上训练好的模型很难直接用到下一个模型上面。

多任务学习：在训练一个模型的时候，同时看多个数据集，而且可能会通过多一个损失函数，来达到一个模型能够在多个任务上都可以使用。

GPT-2还是做语言模型，但是在做到下游任务的时候，会用到zero-shot的设定，zero-shot是说在做到下游的任务的时候，不需要下游任务的任何标注信息，也不需要训练我的模型，好处是，只要训练一个模型在任何地方都能用。

在GPT的时候，预训练语言模型时，是在自然的文本上训练的，但在下游任务时对输入进行了改造，加入了开始符、结束符和分隔符，这些符号模型在之前并不知道，但是因为有微调的环节，所以模型会认识这些符号。

现在要做zero-shot的问题是：在做下游任务的时候，模型不能被调整，若引入之前模型没有见过的符号的话，模型并不认识，所以在构造下游任务的输入时，不能引入模型没有见过的符号，而是要使得整个下游任务的输入，跟之前预训练的输入文本一样。

例子：

机器翻译：若想把英语翻译成法语，可以把句子表达成这个形式（translate to French(作用：特殊的分隔词)，英语文本，法语文本）

阅读理解：（answer the question（设计的提示）,文章，问题，答案）

GPT3:Language Models are Few-Shot Learners

GPT 3尝试解决GPT2的有效性，所以又回到了GPT一开始考虑的few-shot的设定，即不再去追求极致的零样本，在一个子任务上不给任何样例。

摘要：

训练了一个自回归模型GPT3，有1750亿个可学习的参数，比之前所有非稀疏的模型（稀疏的模型是说整个权重可以是稀疏的，里面有大量的0，但如果模型有很多0的话，把0算进去，模型也算是特别大）不同，不会存在很多0，

因为成本太高，所以GPT3在作用在子任务的时候，不做任何的梯度更新或者微调，就算是在零样本的情况下，给定一些样本，GPT3也不是用微调，因为微调总是去算梯度，那么大的模型，算梯度是非常困难的事情，GPT3不需要做任何的梯度更新，也是其一大特点

GPT3能生成一些新闻类的文章，而且人类读起来是很难区分的

GPT2与GPT的不同：把normalization放到前面，可以反转的词元。

GPT2与GPT3区别：把sparse transformer里面的改动拿出来，设计了8个不同大小的模型，

有正反例，去掉相似的数据集

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

深度学习

GPT,GPT-2,GPT-3 的相关文章

用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

RocketMQ介绍

消息队列是分布式系统中重要的组件使用消息队列主要是为了通过异步处理提高系统性能和削峰降低系统耦合性 Apache RocketMQ是由阿里巴巴开源的可支撑万亿级数据洪峰的分布式消息和流计算平台于2016年捐赠给Apache Softw
推挽电路和开集

整理下之前的笔记简谈推挽电路要理解推挽输出首先要理解好三极管晶体管的原理下面这种三极管有三个端口分别是基极 Base 集电极 Collector 和发射极 Emitter 下图是NPN型晶体管这种三极管是电流控制型元器件注
activiti报错：org.activiti.engine.ActivitiTaskAlreadyClaimedException: Task ‘12502‘ is already claimed

在运行activiti时报错信息如下 Exception in thread main org activiti engine ActivitiTaskAlreadyClaimedException Task 12502 is alrea
中介者模式学习和思考

一概念中介者模式 Mediator Mode 就是用一个中介对象来封装一系列的对象交互中介者使各对象不需要显式地相互引用从而使其耦合松散而且可以独立地改变它们之间的交互可以看出中介者主要是通过中介对象来封装对象之间的关系使之
11.微信蓝牙操作

一操作蓝牙适配器的共有 4 个分别是 wx openBluetoothAdapter 初始化蓝牙适配器 wx closeBluetoothAdapter 关闭蓝牙模块 wx getBluetoothAdapterState 获取本机蓝牙
数据结构顺序栈的C语言实现（入栈，初始化栈，出栈，取栈顶操作）【C语言环境下可以直接运行】

C语言实现顺序栈的入栈初始化栈出栈取栈顶操作 C语言数据结构 C语言环境下可以直接运行这个程序可以运行的虽然比较简单但是是可以直接运行的 include
error connecting to master ‘repl@192.168.4.114:3306‘ - retry-time: 60 retries: 3

mysql gt show slave status G 1 row Slave IO State Connecting to master Master Host 192 168 4 114 Master User repl Master
shell中的getopt

Linux中的位置变量和预定义变量 shell中的getopts getopt是一个外部命令不是bash内置命令 Linux发行版通常会自带 getopt支持短选项和长选项老版本的getopt问题较多增强版getopt比较好用执行命
6月之随便写点什么

马上可能很长一段时间不会更新博客了加油吧后期再会我的博客
Unity摄像机屏幕上画线(逐步完善)

1 类似于星际公民用于飞船控制的线从屏幕中心开始鼠标位置结束将下面脚本挂载至摄像机 using System Collections using System Collections Generic using System Thre
在ESXi界面给虚拟机配的内核数与虚机内任务管理器显示数不一致

source esxi6 7设备管理器中的cpu核数和任务管理器中的不一致 esxi吧百度贴吧 ESXi里给某台win10虚机配置了16核cpu 但在此虚机里面的任务管理器里却只看到2个核心原因在下图把CPU和和每个插槽内核数改成一样
JavaSE学习 day01

今天是学习JavaSE的第一天首先我先初识了Java 了解了学习目标知道了什么是程序什么是Java 为什么学习Java 然后学习了搭建Java开发环境 1 安装JDK 2 配置环境变量这里要注意 JDK java开发工具包 JR
JS中的函数-内部函数，子调用函数和返回值为函数的函数

自调用函数 Self invoking Functions 自调用函数也是匿名函数的一种表现形式这个函数在定义之后直接调用如下 function alert haha 看起来还挺怪异不过确实很简单自调用函数很方便使用可以不用定义
多个Node.js版本之间切换

本篇文章会讲windows和Mac系统下实现多个node js版本之间的切换 1 windows下采用nvm nvm window 2 Mac下采用nvm和n 注 window和mac下的nvm地址是不一样的一 windows系统什么是
JDK 8 / JDK 1.8 压缩包

文章大概因为JDK8在官网是直接的一个exe可运行程序并没有压缩包而网络上有别人准备的压缩包看到是某度盘直接放弃所以这篇文章教大家自己来搞一个JDK8的压缩包文件开始操作在操作之前你需要去Java Downloads Ora
对象转JSONObject——字段空值处理方法
uniapp 发布微信小程序分包

1 进入下列文件进入 unpackage dist build mp weixin app json pages pages index index pages login login pages views WearCutData We
十个漂亮的数学定理赏析

原地址十个漂亮的数学定理赏析 Beauty is the first test there is no permanent place in the world for ugly mathematics G H Hardy 科学家研究自然
MYSQL--基础--11--join理解

MYSQL 基础 11 join理解 1 数据初始化 SET FOREIGN KEY CHECKS 0 Table structure for course DROP TABLE IF EXISTS course CREATE TABLE
GPT,GPT-2,GPT-3

视频讲解 GPT GPT 2 GPT 3 论文精读论文精读哔哩哔哩 bilibili 论文链接 GPT https www cs ubc ca amuham01 LING530 papers radford2018improving p

GPT,GPT-2,GPT-3

GPT

GPT,GPT-2,GPT-3 的相关文章

随机推荐

热门标签