tf.where 的 TensorFlow 梯度在不应该返回 NaN 时返回 NaN

2023-12-01

下面是可重现的代码。如果运行它，您将看到在第一次 sess 运行中，结果为 nan，而第二种情况给出了正确的梯度值 0.5。但根据指定的 tf.where 和条件，它们应该返回相同的值。我也根本不明白为什么 tf.where 函数梯度在 1 或 -1 时为 nan，这对我来说似乎是完全好的输入值。

tf.reset_default_graph()
x = tf.get_variable('x', shape=[1])
condition = tf.less(x, 0.0)
output = tf.where(condition, -tf.log(-x + 1), tf.log(x + 1))
deriv = tf.gradients(output, x)
with tf.Session() as sess:
    print(sess.run(deriv, {x:np.array([-1])}))

logg = -tf.log(-x+1)
derivv = tf.gradients(logg, x)
with tf.Session() as sess:
    print(sess.run(derivv, {x:np.array([-1])}))

感谢您的评论！

正如中所解释的github问题由@mikkola提供，问题源于内部实现tf.where。基本上，两种选择（及其梯度）都会被计算，并且通过条件的乘法仅选择正确的部分。唉，如果梯度是inf or nan对于那部分not选择，即使乘以 0，你也会得到nan最终传播到结果。

由于该问题已于 2016 年 5 月提交（即 tensorflow v0.7！）并且此后没有得到修补，因此可以放心地假设该问题不会很快出现，并开始寻找解决方法。

修复此问题的最简单方法是修改语句，使它们始终有效且可微分，即使对于不打算选择的值也是如此。

通用技术是将输入值限制在其有效域内。例如，在您的情况下，您可以使用

cond = tf.less(x, 0.0)
output = tf.where(cond,
  -tf.log(-tf.where(cond, x, 0) + 1),
  tf.log(tf.where(cond, 0, x) + 1))

然而，在您的特定情况下，使用它会更简单

output = tf.sign(x) * tf.log(tf.abs(x) + 1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tf.where 的 TensorFlow 梯度在不应该返回 NaN 时返回 NaN 的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何使用其他 get 变量对 Django 进行分页？

我在使用分页时遇到问题Django 以下面的网址为例 http 127 0 0 1 8000 users sort first name 在此页面上我按用户的名字对用户列表进行排序如果没有排序 GET 变量它默认按 id 排序现在
无法使用 PHP openssl_sign 签署任何内容？

我正在尝试使用 PHP DKIM 发送 DKIM 签名的电子邮件它有点旧所以我不得不改变一些东西但这让我很难过 Warning openssl sign function openssl sign supplied key param
需要帮助理解该函数中的 movzbl 调用

所以我尝试通过查看此处的程序集来编写一些 C 代码 pushl ebp movl esp ebp movl 12 ebp eax addl 8 ebp eax movzbl eax eax movsbl al eax popl ebp re
PHP float/double 存储为 MySQL DECIMAL

我在 MySQL 中存储值时遇到了一个非常奇怪的问题前提我有一个使用的表DECIMAL 15 8 存储货币值如订单总额但是当我尝试插入时 2 45545345 这存储为 2 00000000 我尝试了 MySQL 的 FORMAT
惰性正则表达式的性能和实践？

I 在互联网上阅读我应该避免使用懒惰的正则表达式因为更差的性能和糟糕的实践我从未见过这两者的例子我还没有听说过哪个应用程序受正则表达式的 CPU 限制其他人说他们学会避免它但从未提及原因而有人暗示这是因为在旧程序中打
如何使用 Android 在 Firestore 中添加时间戳？

我正在尝试使用 Firebase Firestore 在 Android 客户端中添加时间戳字段根据文档用于标记要使用服务器填充的日期字段的注释时间戳如果正在写入的 POJO 包含 null ServerTimestamp注释的字段
如何使用expressjs连接？

var express require express routes require routes http require http path require path fs require fs var app express app
iPhone 应用程序升级到新版本后，以前的数据会发生什么变化

我有一个关于应用程序升级到新版本时以前的数据会发生什么的疑问我当前有一个具有本地数据库的应用程序用户可以修改数据库现在如果我将应用程序升级到具有一些新功能的下一个版本会发生什么它会完全取代数据库吗或者我仍然可以使用它如果数据
OpenAI GPT-3 API 错误：“您没有提供 API 密钥。您需要使用承载身份验证在授权标头中提供 API 密钥”

我收到以下 PHP 代码的错误 curl curl init https api openai com v1 engines davinci completions data array prompt gt how many sundays
XML 序列化：反序列化抽象属性时出现问题

我仍在尝试将我的大脑集中在整个 xml 序列化问题上看来我再次需要一些帮助我需要能够反序列化抽象类型的属性随着时间的推移此类型将添加许多不同的具体类型并在许多不同的模型中引用因此明确列出每个具体类型并不是理想的解决方案我已阅读
varchar 与文本 - MySQL

在我的项目中用户可以编写评论纯文本并查看其他人的评论可以删除自己的评论但不能更新评论在这种情况下我应该使用哪个文本或 Varchar 4048 Text和Varchar有什么优缺点大如4000 如果我仅将与 gt 确保一切
如何执行不区分大小写的模式搜索和保留大小写的替换？

这是场景 String strText ABC abc Abc aBC abC aBc ABc AbC Adding a HTML content to this String searchText abc String strFormat
Android 和 Java：减少服务循环上的内存使用

我有一个 Android 服务它使用此线程每秒更新一个通知评论并不真正相关 thread new Thread Override public void run Preparando la notificaci n de Swap No
字符串 s = 新字符串（“xyz”）。这行代码执行后创建了多少个对象？

这个面试问题的普遍同意的答案是代码创建了两个对象但我不这么认为我写了一些代码来确认 public class StringTest public static void main String args String s1 a Stri
如何在MySQL中记录记录的顺序集合

假设我有一张桌子里面有某种类型的记录比如烹饪说明比如 Fold the melted chocolate into the egg whites 该表包含唯一 ID 字段和字符串我想为食谱构建另一个表每个表都有一个唯一的 ID 和
在对象内部使用“this”和对象名称进行引用有什么区别？

如果我有以下代码 var obj x 34 init function alert this x alert obj x 两个警报都显示 34 但是有什么区别一个比另一个更好吗 http jsfiddle net 4scz435q 我在j
如何在 C++ 中编写正确的哈希表析构函数

我正在写一个 C 哈希表这是我的析构函数 HashMap HashMap for int i 0 i
如何从 kdeplot 获取半高全宽 (FWHM)

我在一些数据上使用了seaborn的kdeplot import seaborn as sns import numpy as np sns kdeplot np random rand 100 是否可以从创建的曲线返回 fwhm 如果不是
教义 FindBy 方法与“OR 条件”？

是否可以使用OR教义中的声明findBy method 我希望输出是这样的 SELECT FROM friends WHERE userId 1 OR FriendId 1 现在的代码 user repository gt findBy a
tf.where 的 TensorFlow 梯度在不应该返回 NaN 时返回 NaN

下面是可重现的代码如果运行它您将看到在第一次 sess 运行中结果为 nan 而第二种情况给出了正确的梯度值 0 5 但根据指定的 tf where 和条件它们应该返回相同的值我也根本不明白为什么 tf where 函数梯度在 1

tf.where 的 TensorFlow 梯度在不应该返回 NaN 时返回 NaN

tf.where 的 TensorFlow 梯度在不应该返回 NaN 时返回 NaN 的相关文章

随机推荐

热门标签