label smooth的pytorch实现以及其公式推导（虽然短但是细）

2023-11-07

标签平滑：label smooth

标签平滑是一种正则化手段，目的为了解决onehot编码的缺陷，减少过拟合问题。在各种竞赛中广泛使用，涨点神器。

假设:
预测的结果为 y p r e d y_{pred} ypred, 真实结果为 y t r u e y_{true} ytrue,类别数量为 ∗ ∗ N **N ∗∗N，标签平滑因子为 ϵ ，即 e p s i l o n \epsilon，即epsilon ϵ，即epsilon

标签平滑即在 y t r u e y_{true} ytrue的one-hot编码中进行处理。
y n e w t r u e = ( 1 − ϵ ) ∗ y t r u e + ϵ / N { 1 , 0 , 0 } = > { ϵ = 0.1 } = > { 0.933 , 0.033 , 0.033 } { 0 , 1 , 0 } = > { ϵ = 0.5 } = > { 0.16 , 0.66 , 0.16 } y_{new_true} = (1 - \epsilon) * y_{true} + \epsilon / N \\ \{1, 0 ,0\} => \{\epsilon = 0.1\} = > \{0.933,0.033,0.033\} \\ \{0, 1 ,0\} => \{\epsilon = 0.5\} = > \{0.16,0.66,0.16\} ynewtrue=(1−ϵ)∗ytrue+ϵ/N{1,0,0}=>{ϵ=0.1}=>{0.933,0.033,0.033}{0,1,0}=>{ϵ=0.5}=>{0.16,0.66,0.16}
在多分类中，往往采用交叉熵作为损失函数，如何将标签平滑和交叉熵进行结合，下面我们进行推导：
L c r o s s _ e n t r o y = − ∑ y t r u e l o g y p r e d L c r o s s _ e n t r o y _ l a b e l s m o o t h = − ∑ ( ( 1 − ϵ ) ∗ y t r u e + ϵ / N ) l o g y p r e d = − ∑ ( 1 − ϵ ) ∗ y t r u e l o g y p r e d − ∑ ϵ / N l o g y p r e d = − ( 1 − ϵ ) ∑ y t r u e l o g y p r e d − ϵ / N ∑ l o g y p r e d = ( 1 − ϵ ) ∗ L c r o s s _ e n t r o y − ϵ / N ∑ l o g y p r e d L_{cross\_entroy} = -\sum y_{true}~log~y_{pred} \\ L_{cross\_entroy\_labelsmooth} = -\sum ((1 - \epsilon) * y_{true} + \epsilon / N)~log~y_{pred} \\ = -\sum (1 - \epsilon) * y_{true}~log~y_{pred} - \sum \epsilon / N~log~y_{pred}\\ =-(1 - \epsilon) \sum y_{true}~log~y_{pred} - \epsilon / N\sum~log~y_{pred} \\ = (1 - \epsilon) * L_{cross\_entroy} - \epsilon / N\sum~log~y_{pred} Lcross_entroy=−∑ytrue log ypredLcross_entroy_labelsmooth=−∑((1−ϵ)∗ytrue+ϵ/N) log ypred=−∑(1−ϵ)∗ytrue log ypred−∑ϵ/N log ypred=−(1−ϵ)∑ytrue log ypred−ϵ/N∑ log ypred=(1−ϵ)∗Lcross_entroy−ϵ/N∑ log ypred
根据公式的最后一行，我们知道使用标签平滑的交叉熵损失，只需要在原来的损失函数上乘上一个因子 ( 1 − ϵ ) (1-\epsilon) (1−ϵ)，并减去因子 ( ϵ / N ) (\epsilon /N) (ϵ/N)和预测结果对数之和的乘积。

代码：https://github.com/lonePatient/label_smoothing_pytorch/blob/master/lsr.py（来自网上）

import torch.nn as nn
import torch.nn.functional as F

## eps 表示标签平滑因子
class LabelSmoothingCrossEntropy(nn.Module):
    def __init__(self, eps=0.1, reduction='mean'):
        super(LabelSmoothingCrossEntropy, self).__init__()
        self.eps = eps
        self.reduction = reduction

    def forward(self, output, target):
        c = output.size()[-1]
        log_preds = F.log_softmax(output, dim=-1)
        if self.reduction=='sum':
            loss = -log_preds.sum()
        else:
            loss = -log_preds.sum(dim=-1)
            if self.reduction=='mean':
                loss = loss.mean()
        return loss*self.eps/c + (1-self.eps) * F.nll_loss(log_preds, target, reduction=self.reduction)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

label smooth的pytorch实现以及其公式推导（虽然短但是细）的相关文章

在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
使用 KL 散度时，变分自动编码器为每个输入 mnist 图像提供相同的输出图像

当不使用 KL 散度项时 VAE 几乎完美地重建 mnist 图像但在提供随机噪声时无法正确生成新图像当使用 KL 散度项时 VAE 在重建和生成图像时都会给出相同的奇怪输出这是损失函数的 pytorch 代码 def loss fu
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
对 FastAI 中的数据应用图像增强转换时出错

我正在尝试复制这个 Kaggle 笔记本https www kaggle com tanlikesmath diabetic retinopathy with resnet50 oversampling https www kaggle c
如何在不安装pytorch的情况下使用pytorch预训练模型？

我只想在 pytorch 中使用预先训练的模型而不安装整个包我可以从 pytorch 复制模型模块吗恐怕你不能这样做为了运行模型你不仅需要经过训练的权重 pth tar 文件还需要网络的结构即层它们如何相互连接等该网络结
Pytorch TypeError：eq() 收到无效的参数组合

num samples 10 def predict x sampled models guide None None for in range num samples yhats model x data for model in sam
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
导入pytorch时，未安装microsoft Visual C++ Redistributable

我在一台带有 GPU 的 Windows 机器上工作我已经在 conda 环境中安装了 pytorch conda install pytorch torchvision cudatoolkit 10 1 c pytorch 然后我运行
使用 Huggingface 变压器仅保存最佳权重

目前我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型其中注意力层与原始模型不同我用了run glue py检查我的模型在 GLUE 基准测试上的性能但是我发现huggi
PyTorch 中的数据增强

我对 PyTorch 中执行的数据增强有点困惑现在据我所知当我们执行数据增强时我们保留原始数据集然后添加它的其他版本翻转裁剪等但 PyTorch 中似乎并没有发生这种情况据我从参考文献中了解到当我们使用data tra
PyTorch 中的标签平滑

我正在建造一个ResNet 18分类模型为斯坦福汽车使用迁移学习的数据集我想实施标签平滑 https arxiv org pdf 1701 06548 pdf惩罚过度自信的预测并提高泛化能力 TensorFlow有一个简单的关键字参数Cr
PyTorch：运行时错误：函数 MulBackward0 在索引 0 处返回无效梯度 - 预期类型 torch.cuda.FloatTensor 但得到 torch.FloatTensor

我不明白这个错误告诉我什么在另一个帖子 https github com NVIDIA flownet2 pytorch issues 139也解决了同样的问题但没有有效的解决方案 Traceback most recent call

随机推荐

Vjava学习笔记之（VirtualMachine 内存（总容量和已使用））

源代码 package com vmware client import com vmware util Session import com vmware vim25 HostListSummary import com vmware v
11G RAC 中 OCR 及Voting Disk 相关操作

一启动oracle clusterware 先决条件 Oracle High Availability Services daemon OHASD 运行在所有集群节点上 1 启动整个Oracle Clusterware stack crs
windows下git

下载gitGit for Windows Windows安装git图文教程喵代王香菜的博客 CSDN博客 windows安装git 创建文件夹右键 git bash here 同mac使用
基于Spring Boot的ERP仓储管理信息系统设计与实现毕业设计源码150958

基于Spring Boot的ERP仓储管理信息系统设计与实现摘要科技进步的飞速发展引起人们日常生活的巨大变化电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用信息时代的到来已成为不可阻挡的时尚潮流人类发展的
如何实现一个IO口读取多个设备信息

前言 1 今天遇到一个有意思的问题一个IO口如何读取多个电机的堵转问题之后他就发了一张图片 2 看到这个问题之前先说一个简单的我们如何实现一个IO读取多个按键了解了这个之后对于多个电机堵转就很好理解了如何实现一个IO对多个按键读
直方图均衡化原理

原文 http www cnblogs com tianyalu p 5687782 html 直方图均衡化原理直方图均衡化的作用是图像增强有两个问题比较难懂一是为什么要选用累积分布函数二是为什么使用累积分布函数处理后像素值会均匀分
从零开始的Java开发笔记目录（跑路了）

写在前面不全学习资料来源于网络已经跑路了文章目录阶段1 Java零基础入门第1周环境搭建与语法入门第2周 Java语法之循环数组与方法第3周面向对象之封装与继承第4周面向对象之单例模式与多态第5周常用工具类上
linux c++遍历文件夹下所有文件,C++ 遍历目录下文件

function 遍历目录下所有文件返回文件总数子文件夹总数修改一下可以获得全部文件名等 include stdlib h include direct h include string h include io h include
对OOD/OOP有较深的理解

最近经常有很多人在求职的时候遇到这样一个问题对OOD OOP有较深的理解那OOD OOP又是什么那今天就来讲讲它们都是些什么又如何去回答 1 OOA Object oriented analysis 面向对象分析面向对象分析方法
一款带ai基因的向导般生成ppt的神奇网站

只要按要求填写每一页的内容即可生成一套像模像样的ppt 无需排版模板众多以后ppt不需要人写了哈哈 1 登录 https app slidebean com 2 注册 3 新建 4 模板选择 5 填写以airbnb为例 6 结果
【微信读书每日一答辅助小程序】使用python对每日一答问题进行识别，并将结果保存到剪贴板以便搜索。

目录标题 1 环境准备 2 获取屏幕位置 3 指定区域屏幕截图 4 文字识别 5 按键识别并保存到剪贴板在腾讯收购阅文之后微信读书的无限卡已经不能免费看书了这时白嫖微信读书每日一答的书币成了不错的选择严重偏科又手速垃圾的我在等级升高
Win10 解决docker一直docker desktop starting进不去的问题

这里写自定义目录标题为什么出现这个问题方法1 方法2 方法3 解决我的问题后续计划为什么出现这个问题似乎是因为上次没有完全关闭而是直接关闭电脑导致的目前有三种方法后续应该有更多我这边方法1 2都没有解决我的问题方法3解决
Rxjs 操作符实践指南

操作符实战 1 工具方法型 count 统计总数 import range from rxjs import count from rxjs operators const numbers range 1 7 const result nu
python中16mod7_mod_python模块安装

两 mod python 1 性能使用mod python的主要优势在于比传统CGI更高的性能一个測试使用在Pentium 1 2GHz的机器上执行Red Hat Linux 7 3 使用4种类型的脚本基于标准的CGI导入模块以典
Android Glide加载图片圆角效果与ImageView的ScaleType冲突问题

在imageVIew显示图片的时候一般是使用 android scaleType centerCrop 来让图片不被变形显示但是如果现在用Glide来加载图片并给它转化出一个圆角 transform new GlideRoundTrans
【导航】ESP32-C3 入门教程目录【快速跳转】

本文是矜辰所致的ESP32 C3 专栏的内容导航结合自己的学习应用过程的总结记录 ESP32 C3入门教程前言一环境篇二硬件篇三基础篇四 Wi Fi篇五蓝牙篇六应用篇前言本系列教程以实际应用为目的能够使得
代码随想录 - Day37 - 贪心算法

代码随想录 Day37 贪心算法 376 摆动序列排除只有一个数的情况把差值全部求出来放到dif里在此过程中顺便去掉差值为0的情况如果dif为空说明里面所有差值为0 那么最长摆动序列只能是1 直接返回如果dif不为空把dif
OpenCV学习笔记——《基于OpenCV的数字图像处理》

源码下载下载资源包 bookln cn 常用函数库英文 OpenCV OpenCV modules 中文 Welcome to opencv documentation OpenCV 2 3 2 documentation jetson
esp8266-01s介绍与使用

esp826601s 是个比较常用的wifi模块体积小功能强大说是可以用于工业下面介绍esp826601s 可用引脚以及可用功能 esp 01 ESP 01S 在ESP 01的基础上优化了PCB天线进行了一小步的升级带来了一
label smooth的pytorch实现以及其公式推导（虽然短但是细）

标签平滑 label smooth 标签平滑是一种正则化手段目的为了解决onehot编码的缺陷减少过拟合问题在各种竞赛中广泛使用涨点神器假设预测的结果为 y p r e d

label smooth的pytorch实现以及其公式推导（虽然短但是细）

label smooth的pytorch实现以及其公式推导（虽然短但是细） 的相关文章

随机推荐

热门标签

label smooth的pytorch实现以及其公式推导（虽然短但是细）的相关文章