Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

2024-05-14

我对 PyTorch 和 Huggingface-transformers 比较陌生，并对此尝试了 DistillBertForSequenceClassificationKaggle-数据集 https://www.kaggle.com/c/nlp-getting-started.

from transformers import DistilBertForSequenceClassification
import torch.optim as optim
import torch.nn as nn
from transformers import get_linear_schedule_with_warmup

n_epochs = 5 # or whatever
batch_size = 32 # or whatever

bert_distil = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
#bert_distil.classifier = nn.Sequential(nn.Linear(in_features=768, out_features=1), nn.Sigmoid())
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(bert_distil.parameters(), lr=0.1)

X_train = []
Y_train = []

for row in train_df.iterrows():
    seq = tokenizer.encode(preprocess_text(row[1]['text']),  add_special_tokens=True, pad_to_max_length=True)
    X_train.append(torch.tensor(seq).unsqueeze(0))
    Y_train.append(torch.tensor([row[1]['target']]).unsqueeze(0))
X_train = torch.cat(X_train)
Y_train = torch.cat(Y_train)

running_loss = 0.0
bert_distil.cuda()
bert_distil.train(True)
for epoch in range(n_epochs):
    permutation = torch.randperm(len(X_train))
    j = 0
    for i in range(0,len(X_train), batch_size):
        optimizer.zero_grad()
        indices = permutation[i:i+batch_size]
        batch_x, batch_y = X_train[indices], Y_train[indices]
        batch_x.cuda()
        batch_y.cuda()
        outputs = bert_distil.forward(batch_x.cuda())
        loss = criterion(outputs[0],batch_y.squeeze().cuda())
        loss.requires_grad = True
   
        loss.backward()
        optimizer.step()
   
        running_loss += loss.item()  
        j+=1
        if j == 20:   
            #print(outputs[0])
            print('[%d, %5d] running loss: %.3f loss: %.3f ' %
              (epoch + 1, i*1, running_loss / 20, loss.item()))
            running_loss = 0.0
            j = 0

[1, 608] 运行损失：0.689 损失：0.687 [1、1248]运行损失：0.693 损失：0.694 [1, 1888] 运行损失：0.693 损失：0.683 [1, 2528] 运行损失：0.689 损失：0.701 [1、3168]运行损失：0.690 损失：0.684 [1、3808]运行损失：0.689 损失：0.688 [1, 4448] 运行损失：0.689 损失：0.692 等等...

无论我尝试什么，损失从未减少，甚至增加，预测也没有变得更好。在我看来，我忘记了一些事情，所以权重实际上没有更新。有人有主意吗？氧

我尝试过什么

Different loss functions
- BCE
- 交叉熵
- 甚至MSE损失
One-Hot 编码与单个神经元输出
不同的学习率和优化器
我什至将所有目标更改为只有一个标签，但即便如此，网络也没有收敛。

关注运行损失和小批量损失很容易产生误导。您应该查看纪元损失，因为每个损失的输入都是相同的。

此外，您的代码中存在一些问题，修复所有这些问题并且行为符合预期：每个时期后损失缓慢减少，并且它也可能过度适合小批量。请看代码，改动包括：使用model(x)代替model.forward(x), cuda()只调用一次，较小的学习率等。

调整和微调 ML 模型是一项艰巨的工作。

n_epochs = 5
batch_size = 1

bert_distil = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(bert_distil.parameters(), lr=1e-3)

X_train = []
Y_train = []
for row in train_df.iterrows():
    seq = tokenizer.encode(row[1]['text'],  add_special_tokens=True, pad_to_max_length=True)[:100]
    X_train.append(torch.tensor(seq).unsqueeze(0))
    Y_train.append(torch.tensor([row[1]['target']]))
X_train = torch.cat(X_train)
Y_train = torch.cat(Y_train)

running_loss = 0.0
bert_distil.cuda()
bert_distil.train(True)
for epoch in range(n_epochs):
    permutation = torch.randperm(len(X_train))
    for i in range(0,len(X_train), batch_size):
        optimizer.zero_grad()
        indices = permutation[i:i+batch_size]
        batch_x, batch_y = X_train[indices].cuda(), Y_train[indices].cuda()
        outputs = bert_distil(batch_x)
        loss = criterion(outputs[0], batch_y)
        loss.backward()
        optimizer.step()
   
        running_loss += loss.item()  

    print('[%d] epoch loss: %.3f' %
      (epoch + 1, running_loss / len(X_train) * batch_size))
    running_loss = 0.0

Output:

[1] epoch loss: 0.695
[2] epoch loss: 0.690
[3] epoch loss: 0.687
[4] epoch loss: 0.685
[5] epoch loss: 0.684

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

Pytorch

textclassification

lossfunction

huggingfacetransformers

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？的相关文章

如何对URL进行分类？ URL 的特点是什么？如何从 URL 中选择和提取特征

我刚刚开始研究分类问题这是一个两类问题我的训练模型机器学习必须决定预测是允许 URL 还是阻止它我的问题非常具体如何对 URL 进行分类我应该使用普通的文本分析方法吗 URL 的特点是什么如何从URL中选择和提取特征我假
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP
Pytorch .to('cuda') 或 .cuda() 不起作用并且卡住了

我正在尝试做 pytorch 教程当我尝试将他们的设备设置为 cuda 时它不起作用并且我的代码运行被卡住有关具体信息我正在使用 conda 环境蟒蛇3 7 3 火炬1 3 0 cuda 10 2 NVIDIA RTX2080TI
如何同时有效地运行多个 Pytorch 进程/模型？ Traceback：分页文件太小，无法完成此操作

背景我有一个非常小的网络我想用不同的随机种子进行测试该网络几乎只使用了我的 GPU 计算能力的 1 因此理论上我可以同时运行 50 个进程来同时尝试许多不同的种子 Problem 不幸的是我什至无法在多个进程中导入 pytorch 当
Java 中的自然语言处理 (NLP) [重复]

这个问题在这里已经有答案了可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
Pytorch 中是否有一种方法可以以可反向传播的方式计算唯一值的数量？

给定以下张量这是网络的结果注意 grad fn tensor 121 241 125 1 108 238 125 121 13 117 121 229 161 13 0 202 161 121 121 0 121 121 242 125
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
对产品列表进行分类的算法？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个代表或多或少相同的产品的列表例如在下面的列表中它们都是希捷硬盘希捷硬盘 500Go 适用于笔记本电脑的希捷硬盘 120
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
使用 CNN 和 pytorch 计算每个类别的准确度

我可以使用此代码计算每个时期后的准确性但是我想最后计算每个班级的准确性我怎样才能做到这一点我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练否则 val 文件夹用于测试
如何将句子或文档转换为向量？

我们有将单词转换为向量的模型例如 word2vec 模型是否存在类似的模型可以使用为单个单词学习的向量将句子文档转换为向量 1 跳克法以及使用它的工具谷歌 word2vec https code google com p wor
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
R 中带有变音符号的字符列表

我试图将字符串中的电话字符出现次数制成表格但变音符号单独作为字符制成表格理想情况下我有一个国际音标的单词列表其中包含大量变音符号以及它们与基本字符的几种组合我在这里给出了仅包含一个单词的 MWE 但对于单词列表和更多类型的组合
如何让火车装载机使用特定数量的图像？

假设我正在使用以下调用 trainset torchvision datasets ImageFolder root imgs transform transform trainloader torch utils data DataLoa
如何从 PyTorch 模型的特定层获取输出？

如何从预训练的 PyTorch 模型例如 ResNet 或 VGG 中提取特定层的特征而无需再次进行前向传递新答案 Edit torchvision v0 11 0 中有一个新功能允许提取特征 https github com py
如何使用 Tensorflow 中的 Hugging Face Transformers 库对自定义数据进行文本分类？

我正在尝试使用 Hugging Face Transformers 库提供的不同变压器架构对自定义数据 csv 格式进行二进制文本分类我正在用这个张量流博客文章 https blog tensorflow org 2019 11 hug
PyTorch 中的后向函数

我对 pytorch 的后向功能有一些疑问我认为我没有得到正确的输出 import numpy as np import torch from torch autograd import Variable a Variable torch
python nltk从句子中提取关键字

我们要做的第一件事就是杀掉所有律师威廉莎士比亚鉴于上面的引用我想退出 kill and lawyers 作为两个突出的关键词来描述句子的整体含义我提取了以下名词动词 POS 标签 First NNP thing NN do V

随机推荐

PHP函数：查找参数的变量名和函数调用行号

我想做这样的事情来简化日志操作知道我应该投入什么吗 1 and 2 function log var var line 1 var name 2 line filepath log date Y m d txt message line
如何求小于给定数的最大2次方

我需要找到小于给定数字的最大 2 次幂我陷入困境找不到任何解决方案 Code public class MathPow public int largestPowerOf2 int n int res 2 while res lt n
Encoding.RegisterProvider(CodePagesEncodingProvider.Instance) 不添加额外的编码提供程序

我正在开发一个netcoreapp2 0控制台应用程序我需要从 NET 访问整个编码包我已经添加了System Text Encoding CodePages Version 4 4 0Nuget 包来自这一页 https www nu
展平嵌套结构会导致切片的切片

所以我有一个像这样的结构 type Bus struct Number string Name string DirectStations Station Station is another struct ReverseStations
如何使用 Python 与窗口的 GUI 交互？

假设您想打开myapp exe 打开第三个菜单然后选择第二个菜单项即像用户使用键盘或鼠标一样然后在对话框窗口中选择第二个按钮 pyahk https pyahk readthedocs io en latest and pyautog
函数执行后重新调用react hook

我是反应钩子的新手我有一个钩子函数它从 API 接收一系列数据并显示在列表中 function useJobs const jobs setJobs React useState const locations setLocations
Android 屏幕共享编程（Root）

在 Android gt 5 中是否可以从 root adb shell 进行屏幕共享而无需通过 miracast 或 chromecast 进行用户交互我正在寻找启用禁用此功能的命令https support google com
Java获取编译时安全方法名

在使用反射类和注释时我发现没有明确的方法以编译时安全的方式引用方法名称我真正想要的是能够在注释中引用方法可能看起来像 CallAfter method Foo class foo void Bar 目前您只能使用字符串来执行此操作
“正确的方式”导入 Hotmail 联系人？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Django 1.8 KeyError：关系上的“经理”

我的模型设置如下 class Post models Model name models CharField max length 10 class Comment models Model post models ForeignKey P
存储 PHP 数组的首选方法（json_encode 与序列化）

我需要将多维关联数据数组存储在平面文件中以进行缓存我偶尔可能会遇到需要将其转换为 JSON 以便在我的 Web 应用程序中使用的情况但绝大多数时候我会直接在 PHP 中使用该数组在此文本文件中将数组存储为 JSON 或 PHP 序列化
依赖注入的惰性解析

我有 net 课程我使用 Unity 作为 IOC 来解决我们的依赖关系它尝试在开始时加载所有依赖项 Unity中有没有一种方法设置允许在运行时加载依赖项还有更好的解决方案 Unity 2 0 中对 Lazy 和 IEnumera
LINQ WHERE 语句/忽略条件

如果参数为 null 或为空我需要忽略 WHERE 语句中的部分或全部条件 FE 我有简单的 LINQ 查询 var query from x in context a where x p param1 x i param2 select
防止隐藏的输入被更改

这一直让我压力很大我有一个隐藏的输入
当缩放元素在缩放之前大于容器时，CSS 变换比例（向下）不会使用 margin 0 auto 将元素居中

看来当缩小以前不适合其容器的元素时 margin 0 auto将不再使元素在其父元素中居中请注意使用transform origin center center并没有解决这个问题这是因为自动边距似乎在缩放之前而不是之后应用我期望后
Python 线程在 main 中调用一次时运行两次[重复]

这个问题在这里已经有答案了 if name main t threading Thread target authtarget t daemon True t start print running thread app run debug
如何使用存储在 Cocoa Touch 框架中的 Localized.strings？

我想为 CocoaTouch 框架添加多语言支持问题可本地化的字符串我创建的文件仅被使用NSLocalizedString当它是主应用程序及其目标的一部分时我想将其存储在框架内以将事物分开我怎样才能使用可本地化的字符串当放置在 Co
如何在 win 窗体项目中创建用户控件的 dll？

我在项目中创建了这个用户控件当我编译项目时我看到项目 dll 但是当我编译项目时我怎样才能做到这一点它也会创建一个用户控件的 dll 以便稍后在其他项目上我能够将此用户控件 dll 添加到我的工具箱中 Module Name Li
AttributeError：尝试在 python 中运行 sqlalchemy 来管理我的 SQL 数据库时，“Engine”对象没有属性“execute”

我有以下代码行不断给我一个错误即引擎对象没有对象执行我认为我一切都对但不知道接下来会发生什么似乎其他人也遇到了这个问题重新启动他们的笔记本电脑就可以了我正在使用 Pycharm 并已重新启动但没有任何解决方案任何帮助是极大的赞
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？ 的相关文章

随机推荐

热门标签

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？的相关文章