Softmax 交叉熵损失爆炸

2024-01-08

我正在创建一个用于逐像素分类的深度卷积神经网络。我正在使用 adam 优化器，softmax 和交叉熵。

Github 存储库 https://github.com/dhasl002/Research-DeepLearning

I asked a similar question found here https://stackoverflow.com/questions/48600374/cross-entropy-loss-suddenly-increases-to-infinity but the answer I was given did not result in me solving the problem. I also have a more detailed graph of what it going wrong. Whenever I use softmax, the problem in the graph occurs. I have done many things such as adjusting training and epsilon rates, trying different optimizers, etc. The loss never decreases past 500. I do not shuffle my data at the moment. Using sigmoid in place of softmax results in this problem not occurring. However, my problem has multiple classes, so the accuracy of sigmoid is not very good. It should also be mentioned that when the loss is low, my accuracy is only about 80%, I need much better than this. Why would my loss suddenly spike like this?

x = tf.placeholder(tf.float32, shape=[None, 7168])
y_ = tf.placeholder(tf.float32, shape=[None, 7168, 3])

#Many Convolutions and Relus omitted

final = tf.reshape(final, [-1, 7168])
keep_prob = tf.placeholder(tf.float32)
W_final = weight_variable([7168,7168,3])
b_final = bias_variable([7168,3])
final_conv = tf.tensordot(final, W_final, axes=[[1], [1]]) + b_final

cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=final_conv))
train_step = tf.train.AdamOptimizer(1e-5).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(final_conv, 2), tf.argmax(y_, 2))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

您需要标签平滑。

我刚刚遇到了同样的问题。我正在训练tf.nn.sparse_softmax_cross_entropy_with_logits这和你使用的一样tf.nn.softmax_cross_entropy_with_logits带有one-hot标签。我的数据集预测罕见事件的发生，因此训练集中的标签为 99% 0 类和 1% 1 类。我的损失将开始下降，然后停滞（但预测合理），然后突然爆炸，然后预测也变坏了。

使用tf.summary通过将内部网络状态记录到 Tensorboard 中，我观察到 logits 的绝对值不断增长。最终>1e8，tf.nn.softmax_cross_entropy_with_logits数值变得不稳定，这就是产生那些奇怪的损失峰值的原因。

在我看来，发生这种情况的原因在于 softmax 函数本身，这与 Jai 的评论一致，即在 softmax 之前放置一个 sigmoid 可以解决问题。但这也肯定会使 softmax 似然不可能准确，因为它限制了 logits 的值范围。但这样做可以防止溢出。

Softmax 定义为likelihood[i] = tf.exp(logit[i]) / tf.reduce_sum(tf.exp(logit[!=i]))。交叉熵定义为tf.reduce_sum(-label_likelihood[i] * tf.log(likelihood[i])因此，如果你的标签是单热的，那么它就会减少到目标可能性的负对数。实际上，这意味着你正在推动likelihood[true_class]尽可能接近1.0尽你所能。由于 softmax，唯一的方法是如果tf.exp(logit[!=true_class])变得尽可能接近0.0尽可能。

所以实际上，您已经要求优化器生成tf.exp(x) == 0.0做到这一点的唯一方法是x == - infinity。这就是数值不稳定的原因。

解决方案是“模糊”标签，而不是[0,0,1]你用[0.01,0.01,0.98]。现在优化器可以达到tf.exp(x) == 0.01这导致x == -4.6它安全地处于 GPU 计算准确可靠的数值范围内。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Softmax 交叉熵损失爆炸的相关文章

如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

难以更改异步任务中的进度对话框消息

我创建了一个异步任务想要在 doBackground 的不同阶段更改进度对话框的消息这是代码 public class sc extends AsyncTask
Liberty + Spring Data 中的容器管理的 MongoDB 连接

我们开发了一个应用程序Spring Boot spring data 后端 MongoDB并使用IBM Websphere Liberty作为应用服务器我们被利用了应用程序管理的数据库连接 in an yml文件并享受 Spring B
Backbone.js 自定义构造函数？

我正在寻找一些在我的模型上创建自定义构造函数的示例我希望模型数据的结构有所不同然后将其设置为属性有人可以向我展示一些如何执行此操作的基本示例吗 Thanks 如果您确实想重写构造函数请传递constructor财产给Backbon
在 numba 中缓存 jit 编译的函数

我想使用 numba 编译一系列常用函数并且因为我只需要在我的机器上使用相同的签名运行它们所以我想缓存它们但是当尝试这样做时 numba 告诉我该函数无法缓存因为它使用大型全局数组这是它显示的具体警告 NumbaWarning 无
DataType.fromJson() 错误：java.lang.IllegalArgumentException：无法将 JSON 字符串“int”转换为数据类型

尝试从 JSON 文件创建 StructType 用作创建数据帧的架构 JSON 结构 type struct fields name LocationID type int nullable false metadata name Bor
LINQ 左连接错误

我在 LINQ 中编写了以下查询来执行左连接但它抛出错误 var qry from c in dc category feature Name trans SelectAll Active join p in dc product cat
使用 VBA 和 ActiveX 减少 WithEvent 声明和子事件

在工作表上我有 3 个 ActiveX 对象分别是 TextBox1 TextBox2 ListBox1 省略其他代码我有一个 clsEvents 类其中包含 Private WithEvents txbControl As MSF
无法为 ggplot2 中的多个密度图制作图例

我正在使用 ggplot2 绘制一些带有图例的密度图但我无法将图例添加到最终结果中 m lt ggplot chickwts aes x weight m geom density kernel gaussian adjust 3 col
@Component 和 @Repository / @Service 注解的处理方式有什么区别？

今天我在 Spring 3 0 中偶然发现了一个相当奇怪的问题有一个抽象类A及其具体实施A Impl A Impl被注释为 Repository并由 Spring 自动扫描
Chrome 说“资源解释为脚本，但以 MIME 类型文本/纯文本传输。”，什么给出了？

在 FF 等所有环境中我的 javascript 运行良好但在 Chrome 中它给出了这样的消息资源解释为脚本但使用 MIME 类型 text plain 进行传输我已经检查了所有脚本标签它们都有MIME type text
尝试了解password_verify PHP

我试图了解password verify如何使用它来重置密码我本以为这会起作用但散列似乎不匹配 sUniqueCode uniqid 1234 true sHash1 password hash sUniqueCode PASSWORD
找不到springframework的标签库描述符

我试图遵循 spring JPetStore 的示例但在引用 lib 标签 spring 的行中的 JSP 页面中出现错误找不到 http www springframework org tags 的标签库描述符这个图书馆的网址是什么
将 Javascript 对象转换为代理（而不是其引用）

我可以获取一个 Javascript 对象o并从中创建一个新的 Proxy 对象 let p new Proxy object 但是有没有办法改变现有对象引用以跟踪原始对象的更改特别是有没有办法可以从外部源跟踪对象上新键的添加代理规范
在 pg-promise 中返回

我使用所有查询创建了一个单独的文件pg promise节点模块虽然对于大多数人来说我只是使用req res在查询之后我想返回一个值这是行不通的它返回undefined passportLogin email gt db one SE
Interface Builder 项到底什么时候被实例化？

假设我从 XCode4 中的模板创建一个基于导航的应用程序那么 MainWindow xib 中将有一个导航控制器它有一个子 RootViewController 到底什么时候会 RootViewController 的实例被创建吗该
使最后一个内联列表项扩展容器的剩余宽度

我正在寻找一种方法来使最后一个内联列表项扩展其容器的其余部分所以我有这样的东西
使编译器/优化器能够制作更快的程序的编码实践

许多年前 C 编译器还不是特别聪明作为一种解决方法 K R 发明了register关键字提示编译器将此变量保留在内部寄存器中也许是个好主意他们还制作了三级运算符来帮助生成更好的代码随着时间的推移编译器逐渐成熟他们变得非常聪明
数据表固定列（仅限右侧）问题

我正在使用 JQuery Datatable 当我使用固定列时遇到了问题它已经显示了两次我的固定栏 https i stack imgur com qlSCh png 我正在使用服务器端处理这是我的代码 dataTable table
jQuery 在传递 POST 数据时在新选项卡中打开页面

我有一个名为 list 的 JavaScript 变量我需要将其作为 POST 数据发送到另一个页面并在新选项卡中打开该页面存在 POST 数据这段代码 jQuery post datadestination php list 发送数
Softmax 交叉熵损失爆炸

我正在创建一个用于逐像素分类的深度卷积神经网络我正在使用 adam 优化器 softmax 和交叉熵 Github 存储库 https github com dhasl002 Research DeepLearning I asked a

Softmax 交叉熵损失爆炸

Softmax 交叉熵损失爆炸 的相关文章

随机推荐

热门标签

Softmax 交叉熵损失爆炸的相关文章