[论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

2023-11-11

1. 基本信息

题目 论文作者与单位 来源 年份
LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021

524 Citations

论文链接:https://arxiv.org/pdf/2106.09685.pdf

论文代码:https://github.com/microsoft/LoRA

2. 要点

研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 关键字
微调大模型 对比较大的模型进行全部参数的微调显得不太可行,例如GPT-3 175B,每介任务都部署一个单独的GPT-3,这个显得十分的昂贵。 提出Low-Rank Adaptation,LoRA. 冻结了预先训练的模型权值,并将可训练的秩分解矩阵注入变压器架构的每一层,大大减少了下游任务的可训练参数的数量。 效果与全参微调相当或比全参要好,并且没有推理延迟。 LoRa

目的主要是不想微调模型的所有参数,去满足下游任务,因为这个成本太大的,特别是大模型例如175B的GPT-3;同时,这个方法也有人提出了相关的方法,可是这些方法存在问题,通过扩展模型的深度或减少模型的可用序列长度来实现存在推理延迟。最重要的是质量不太行呀。

启发于:学习到的过度参数化模型实际上存在于一个较低的intrinsic dimension(内在维度)上。即是训练下游任务不需要这么多参数,采用降秩的方法来保留最内在的参数。

Measuring the Intrinsic Dimension of Objective Landscapes, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. arXiv:2012.13255 [cs], December 2020.

优点:

只共享一个大模型,对于不同的任务,只训练不同的A,B.

训练更有效,训练参数少;

在推理方面,线性合并,没有推理延迟;

LoRA与许多先前的方法正交,可以与其中许多方法结合,比如前缀调优。

3. 模型(核心内容)

3.1 形式表达

pCmZfhQ.png

3.2 模型结构

pCmASwF.png

W0 + ∆W = W0 + *BA, 其中 *B:d*r, A:r*k, r << min(d, k).

在训练的时候W0的冻结的。

pCmmbYF.png

Transformer中,自关注力有4个矩阵,MLP模块有2个矩阵;

这里实验只关心自关注力相关的权重矩阵。

4. 实验与分析

对比实验

Fine-Tuning (FT):传统的微调。FT变体,只训练最后两层(FTTop2);

Bias-only or BitFit: 只训练bias vectors;

**Prefifix-embedding tuning (PreEmbed):**在输入标记中插入特殊的标记;

Prefix-layer tuning (PreLayer):是对前缀嵌入调优的扩展;

Adapter tuning:在自注意模块(和MLP模块)和后续的剩余连接之间插入适配器层;

Adapter_H:Houlsby et al. (2019) ;

Adapter_L:Lin et al. (2020)

Adapter_P: Pfeiffer et al. (2021),

**Adapter_***D: *AdapterDrop (R¨uckl′e et al., 2020)

所有模型,限制相关的参数大小规模Θ

pCmNA5d.png

结果:
pCmUnY9.png

pCmUgYj.png

pCmByJe.png

训练参数量与性能对比实验:

pCmanHS.png

对于GPT-3随着样本的增加的效果:

pCma6u6.png

5. 代码

https://github.com/microsoft/LoRA

6. 总结

从效果来看,不论预训练模型的大小,LoRA采用更少的参数,可以达到全参模型的更好的效果。

7. 知识整理(知识点,要读的文献,摘取原文)

通过更少的参数去适应下游任务,主要是两个方向(adapter, soft Prompt):

adding adapter layers,optimizing some forms of the input layer activations

The major downside of fine-tuning is that the new model contains as many parameters as in the original model.

微调的主要缺点是,新模型包含的参数与原始模型一样多。

8. 参考文献

made by happyprince

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models 的相关文章

  • 二分查找题目汇总

    1 Search In Rotated Array 2 Search In Rotated Array if A begin A mid begin skip 就可以了 3 Search For a Range 1 标准二分 左右扩展 最坏
  • Ubuntu22.04 LTS 显卡相关命令

    第一部分查看驱显卡信息 一 查看显卡型号 i表示不区分大小写 lspci grep i nvidia 必须安装好nvidia驱动 nvidia smi L 二 查看显卡驱动版本 cat proc driver nvidia version
  • 支付宝支付接口(即时到账交易接口)

    create direct pay by user 官方参数API文档地址 https doc open alipay com docs doc htm spm a219a 7629140 0 0 dsNjYY treeId 108 art
  • ajax中如何隐藏列,【JS】在chrome等浏览器中,如何隐藏掉ajax请求,使其不会显示在console中...

    由于项目的保密性需要 需要隐藏掉ajax请求接口的地址 请问各位都是怎么做的 回答 纯后端渲染 不用ajax 后端的安全性怎么可能让前端来保证 你最多只能签名一下参数 可以尝试使用中转服务器 假设服务器 B 需要保密 你可以转而请求 A 服
  • Java类加载器

    目录 0 知识储备 JVM内存分区 双亲委派机制 1 Java类加载机制 1 1核心类加载器启动原理 类加载的含义 类加载过程 1 类的加载 2 类的连接 3 初始化 1 2类加载的双亲委派机制 2 类加载器的类型 3 自定义类加载器的实现

随机推荐

  • eclipse svn 忽略 target/.project /.classpath /.settings等 目录

    问题描述 用eclipse同步项目时 会出现target project classpath settings等与代码无关的文件 介绍两种办法 推荐第二种 方法一 在新建项目的时候 在第一次commit 到 SVN 之前 先在项目的根目录设
  • L1,L2,L3 Cache缓存原理

    一 介绍 CPU缓存 Cache Memory 也被称为Cache 是存储器子系统的组成部分 存放着程序经常使用的指令和数据 从广义的角度上看 Cache是快设备为了缓解访问慢设备延时的预留的Buffer 从而可以在掩盖访问延时的同时 尽可
  • qt 中报 error: No rule to make target 这个错误的就解决方法

    最近在用qt设计数据库课设的前端界面 在做好的界面更改资源文件时qt给报了这个错误 error No rule to make target one OneDrive 01 png needed by debug qrc res cpp 我
  • LDAP 常用名词

    LDAP目录结构的最顶部就是根 也就是所谓的基准 DN DN通常有一下三种格式为 DN domain name 域名 域名系统 域名服务器 假定我在一家电子商务公司工作 这家公司在internet上的名字为foobar com o foob
  • web前端统计埋点分离方案

    前言 最近一直在思考一个吸引人的标题对一篇文章的阅读到底影响有多大 所以这篇文章取了一个比较大的标题 内容是炒冷饭 主要是再介绍一下之前在业务里遇见关于统计埋点的问题 以及我的解决方案 Tagmanager Tagmanager tagma
  • selenium解决下拉表单和浏览器下拉进度条问题的问题

    1 有的时候使用selenium自动化模块时会遇到下拉表单的问题 name如何解决这个问题呢 Selenium专门提供了Select类来处理下拉框 导入 Select 类 from selenium webdriver support ui
  • 网站发布一般步骤以及解决方法

    1 在D盘 随便一个地方 新建文件夹 2 在vs项目中点击发布弹出对话框 3 配置文件选择自定义 4 下一步 Publish method 选择file system 5 target location选择第一步创建的文件夹 6 下一步 f
  • 《软件测试的艺术》

    1 每当测试一个程序时 应当想到要为程序增加一些价值 通过测试来增加程序的价值 是指测试提高了程序的可靠性或质量 提高了程序的可靠性 是指找出并最终修改了程序的错误 因此 不要只是为了证明程序能够正确运行而去测试程序 相反 应该一开始就假设
  • datetime数据类型在页面上的显示不完全

    下面两个代码全包含在script标签中 function fmtDate sDate var dt new Date sDate var y dt getFullYear var m dt getMonth 1 var d dt getDa
  • 用VS2015开发Linux程序

    1 开发工具 VS2015Update3 Visual C for Linux Development VC Linux exe 下载链接 介绍 VMware 虚拟机软件 ubuntu 16 04 desktop amd64 iso Lin
  • C# 预处理器指令(学习心得 24)

    预处理器指令 指导编译器在实际编译开始之前对信息进行预处理 所有的预处理器指令都是以 开始 在一行上 只有空白字符可以出现在预处理器指令之前 预处理器指令不是语句 所以它们不以 分号 结束 一个预处理器指令必须是该行上的唯一指令 超级小白友
  • Mysql 一主多备安装部署文档

    Mysql 一主多备安装部署文档 文章目录 Mysql 一主多备安装部署文档 1 主节点配置 1 1 my cnf 配置 1 2 配置同步账号 1 3 授权同步账号 1 4 授权远程登录 1 5 刷新 1 6 查看Master状态 2 Sl
  • vmware workstation 16 player 导出虚拟机ovf文件

    vmware workstation 16 player 导出虚拟机ovf文件 1 找到vm的ovftool 位于C Program Files x86 VMware VMware Player OVFTool 2 找到虚拟机对应 vmx文
  • MATLAB对csv文件的某一列数据进行数据处理

    clc clear all close all M csvread shui A Aref csv 1 2 N csvread kongA Aref csv 1 2 baseline 1 mean M 1 16 baseline 2 mea
  • UWB的定位算法(简单详细易懂)

    系列文章目录 文章目录 系列文章目录 前言 一 控制部分 二 UWB 的测距原理是什么 三 TOF 数学计算 四 Trilateration 三边测量法的原理与计算方法 TDOA平面 1 三边测量法的缺陷是 2 Z 轴准确度比 X 轴 Y
  • 多项目同时进行,如何做好项目管理?

    大部分企业在运营过程中一般会存在多个项目并行推进的情况 一段时间只运营一个项目的情况已经很少 无论是对项目管理者还是项目执行者而言 多项目同时进行比单项目运行更具挑战 多项目管理一般会存在各项目之间抢资源 资源冲突 资源分配不合理 可能存在
  • 使用node-forge pki进行RSA加密

    先放npm官方文档 www npmjs com package node forge 在知道RSA加密的大致原理后 再往下看 使用例子 简单写个方法 引入依赖 import forge from node forge base64转换 一般
  • 第十届蓝桥杯决赛B组:排列数

    这题我们用动态规划做 首先我们来找规律 对于一个递增的数列 如123456 我们插入一个数 这个数大于数列中所有的数 这里插入7 如果不插在两端 1 6 的数两侧 则增加了两个拐点 如1273456 插在 1 6 的内测 有两种情况 如17
  • win2008+IIS7.5+VS2013+4.5netframework,HTTP 错误 404.0 - Not Found 错误代码 0x80070002 解决办法

    win2008系统IIS7 5部署网站后访问首页正常 但访问其他地址时出错 如 访问http localhost ARCIMS Website lanzfc veiwers htm出错 错误如下 应用程序 DEFAULT WEB SITE
  • [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

    1 基本信息 题目 论文作者与单位 来源 年份 LoRA Low Rank Adaptation of Large Language Models microsoft International Conference on Learning