预训练模型 & Fine-tuning

2023-11-02

https://blog.csdn.net/weixin_42137700/article/details/82107208

https://zhuanlan.zhihu.com/p/46833276

在实践中，由于数据集不够大，很少有人从头开始训练网络。常见的做法是使用预训练的网络（例如在ImageNet上训练的分类1000类的网络）来重新fine-tuning（也叫微调），或者当做特征提取器。

语言模型来辅助NLP任务已经得到了学术界较为广泛的探讨，通常有两种方式：

feature-based（ELMo）

利用语言模型的中间结果也就是LM embedding, 将其作为额外的特征，引入到原任务的模型中。
通常feature-based方法包括两步：a. 在大的语料A上无监督地训练语言模型，训练完毕得到语言模型，然后构造task-specific model例如序列标注模型，采用有标记的语料B来有监督地训练task-sepcific model，将语言模型的参数固定，语料B的训练数据经过语言模型得到LM embedding，作为task-specific model的额外特征。

fine-tuning

Fine-tuning方式是指在已经训练好的语言模型的基础上，加入少量的task-specific parameters。例如对于分类问题在语言模型基础上加一层softmax网络，然后在新的语料上重新训练来进行fine-tune。
- 构造语言模型，采用大的语料A来训练语言模型在语言模型基础上增加少量神经网络层来完成specific task。例如序列标注、分类等，然后采用有标记的语料B来有监督地训练模型，这个过程中语言模型的参数并不固定，依然是trainable variables。

常见的两类迁移学习场景

卷积网络当做特征提取器。使用在ImageNet上预训练的网络，去掉最后的全连接层，剩余部分当做特征提取器（例如AlexNet在最后分类器前，是4096维的特征向量）。这样提取的特征叫做CNN codes。得到这样的特征后，可以使用线性分类器（Liner SVM、Softmax等）来分类图像。
Fine-tuning卷积网络。替换掉网络的输入层（数据），使用新的数据继续训练。Fine-tune时可以选择fine-tune全部层或部分层。通常，前面的层提取的是图像的***通用特征（generic features）***（例如边缘检测，色彩检测），这些特征对许多任务都有用。后面的层提取的是***与特定类别有关***的特征，因此fine-tune时常常只需要Fine-tuning后面的层。

何时以及如何Fine-tune

决定如何使用迁移学习的因素有很多，这是最重要的只有两个：新数据集的大小、以及新数据和原数据集的相似程度。有一点一定记住：**网络前几层学到的是通用特征，后面几层学到的是与类别相关的特征。**这里有使用的四个场景：

新数据集比较小且和原数据集相似。因为新数据集比较小，如果fine-tune可能会过拟合；又因为新旧数据集类似，我们期望他们高层特征类似，可以使用预训练网络当做特征提取器，用提取的特征训练线性分类器。
新数据集大且和原数据集相似。因为新数据集足够大，可以fine-tune整个网络。
新数据集小且和原数据集不相似。新数据集小，最好不要fine-tune，和原数据集不类似，最好也不使用高层特征。这时可是使用前面层的特征来训练SVM分类器。
新数据集大且和原数据集不相似。因为新数据集足够大，可以重新训练。但是实践中fine-tune预训练模型还是有益的。新数据集足够大，可以fine-tine整个网络。

warning

与重新训练相比，fine-tune要使用更小的学习率。因为训练好的网络模型权重已经平滑，我们不希望太快扭曲（distort）它们（尤其是当随机初始化线性分类器来分类预训练模型提取的特征时）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Deep Learning

finetuning

预训练模型 & Fine-tuning 的相关文章

深度学习之图像的数据增强

在图像的深度学习中为了丰富图像训练集更好的提取图像特征泛化模型防止模型过拟合一般都会对数据图像进行数据增强数据增强常用的方式就是旋转图像剪切图像改变图像色差扭曲图像特征改变图像尺寸大小增强图像噪音一般使用高斯噪音
Bug解决：ModuleNotFoundError: No module named ‘taming‘

from taming modules vqvae quantize import VectorQuantizer2 as VectorQuantizer ModuleNotFoundError No module named taming
3W字长文总结PyTorch中常用的函数

quad quad PyTorch基本函数更新 quad q
深度学习中的随机梯度下降(SGD)简介

随机梯度下降 Stochastic Gradient Descent SGD 是梯度下降算法的一个扩展机器学习中反复出现的一个问题是好的泛化需要大的训练集但大的训练集的计算代价也更大机器学习算法中的代价函数通常可以分解成每个样本的代价
windows下运行pointnet（全）

放假闲着在家没事本人突然想跑一下3d深度学习的开山之作 pointnet玩一玩可是目前网上大部分pointnet的运行教程都是在Ubuntu系统下的其实本人也曾装过双系统但是因为我太菜了在Ubuntu下装完显卡驱动和cuda后切换
Pytorch中计算自己模型的FLOPs

转自 Pytorch中计算自己模型的FLOPs thop profile 方法 yolov5s 网络模型参数量计算量统计墨理学AI CSDN博客 Pytorch 用thop计算pytorch模型的FLOPs 简书安装thop pip
深度学习论文：Deep Residual Learning for Image Recognition

论文 He Kaiming et al Deep residual learning for image recognition Proceedings of the IEEE conference on computer vision a
深度神经网络中的Inception模块介绍

深度神经网络 Deep Neural Networks DNN 或深度卷积网络中的Inception模块是由Google的Christian Szegedy等人提出包括Inception v1 Inception v2 Inception
一文看尽深度学习中的15种损失函数

转自 https zhuanlan zhihu com p 377799012 在机器学习中损失函数是代价函数的一部分而代价函数则是目标函数的一种类型 1 Loss function 即损失函数用于定义单个训练样本与真实值之间的误差
Mac电脑配置李沐深度学习环境[pytorch版本]使用vscode

文章目录第一步 M1芯片安装Pytorch环境安装Miniforge 创建虚拟环境安装Pytorch 第二步下载李沐Jupyter文件第三步配置vscode 参考第一步 M1芯片安装Pytorch环境安装Miniforge
词向量的运算与Emoji生成器

本文参考参考没有对框架内容进行学习旨在学习思路和方法 1 词向量运算之前学习RNN和LSTM的时候输入的语句都是一个向量比如恐龙的名字那个例子就是将一个单词中的字母按顺序依次输入这对于一个单词的预测是可行的但是对于想让机器学习
深度学习系统为什么容易受到对抗样本的欺骗？

转自 https zhuanlan zhihu com p 89665397 本文作者 kurffzhou 腾讯 TEG 安全工程师最近 Nature发表了一篇关于深度学习系统被欺骗的新闻文章该文指出了对抗样本存在的广泛性和深度学习的脆
决策树(Decision Tree)简介

决策树 Decision Tree 及其变种是另一类将输入空间分成不同的区域每个区域有独立参数的算法决策树分类算法是一种基于实例的归纳学习方法它能从给定的无序的训练样本中提炼出树型的分类模型树中的每个非叶子节点记录了使用哪个特征来
GNN等优缺点总结及解决方案

https www zhihu com question 338051122 https www zhihu com question 346942899 https zhuanlan zhihu com p 291230435 GCN的缺
Matting(抠图)--用深度学习自动去除照片背景

转自 https zhuanlan zhihu com p 38031181 https zhuanlan zhihu com p 151212267 现在又有一个 AI 能干 Photoshop 的活了自动抠图一键去除照片背景这款
深度学习中的优化算法之RMSProp

之前在https blog csdn net fengbingchun article details 124766283 中介绍过深度学习中的优化算法AdaGrad 这里介绍下深度学习的另一种优化算法RMSProp RMSProp全称为R
- UnitBox An Advanced Object Detection Network，arxiv 16.08

UnitBox An Advanced Object Detection Network arxiv 16 08 download 该论文提出了一种新的loss function IoU loss 这点比较有意思也容易复现论文分析了fa
深度学习中的优化算法之AdaGrad

之前在https blog csdn net fengbingchun article details 123955067 介绍过SGD Mini Batch Gradient Descent MBGD 有时提到SGD的时候其实指的是MB
yolov5量化部署（基于openvino和tensorrt）

yolov5 openvino量化部署首先下载YOLOv5源码安装YOLOv5和OpenVINO的python依赖 git clone https github com ultralytics yolov5 git pip insta
pthread_create返回值错误码11 (EAGAIN)或libgomp: Thread creation failed: Resource temporarily unavailable错误

在主机上开发torch xla时使用非root用户在conda环境遇到tensorflow中报pthread create 11错误大意为系统资源不足解决方案分析此主机多用户使用资源占用非常大且大多数情况下在docker容器

随机推荐