TensorFlow学习（6）自定义模型，使用自动微分计算梯度

2023-10-27

1. 自定义模型

1.1 构建自定义模型的基本步骤

继承keras.Model类
在构造函数中创建层和变量
实现call方法来执行操作
实现get_config()
实现了get_config()就可以使用save（）方法保存模型并使用keras.models.load_model()函数加载模型，使用save_weights()和load_weights()方法来保存和加载模型

其他功能和基本模型一样

1.2 基于模型内部的损失和指标

在call()方法计算损失，并使用add_loss()方法将其添加到模型的损失函数中

2 使用自动微分计算梯度

首先定义两个变量W1和W2
创建一个tf.GradientTape上下文
要求该tape针对两个变量[W1,W2]计算z的梯度

w1, w2 = tf.Variable(5.), tf.Variable(3.)
with tf.GradientTape() as tape:
    z = f(w1, w2)

gradients = tape.gradient(z, [w1, w2])

调用tape的gradient方法后，tape会立即被自动擦除。如果需要多次调用gradient(),必须使得tape具有持久性persistent=True

with tf.GradientTape(persistent=True) as tape:
    z = f(w1, w2)

dz_dw1 = tape.gradient(z, w1)
dz_dw2 = tape.gradient(z, w2) # works now!
del tape

需要手动删除tape

2.1 跟踪对象

默认跟踪涉及变量的操作，但是可以强制观察你喜欢的任何张量

c1, c2 = tf.constant(5.), tf.constant(3.)
with tf.GradientTape() as tape:
    tape.watch(c1)
    tape.watch(c2)
    z = f(c1, c2)

gradients = tape.gradient(z, [c1, c2])

print(gradients)

结果：
[<tf.Tensor: shape=(), dtype=float32, numpy=36.0>, <tf.Tensor: shape=(), dtype=float32, numpy=10.0>]

用处：实现正则化损失，从而在输入变化不大的时候惩罚那些变化很大的激活

2.2 梯度

一个梯度tape是用来计算单个值（通常是损失）相对于一组值（通常是模型参数）的梯度。一正一反获得所有梯度，可以调用jacobian（）方法获取单独的梯度

with tf.GradientTape(persistent=True) as hessian_tape:
    with tf.GradientTape() as jacobian_tape:
        z = f(w1, w2)
    jacobians = jacobian_tape.gradient(z, [w1, w2])
hessians = [hessian_tape.gradient(jacobian, [w1, w2])
            for jacobian in jacobians]
del hessian_tape
print(jacobians)
print(hessians)

用来获得二阶偏导数

hessians = [hessian_tape.gradient(jacobian, [w1, w2])
            for jacobian in jacobians]

2.3 阻止反向传播

使用tf.stop_gradient

def f(w1, w2):
    return 3 * w1 ** 2 + tf.stop_gradient(2 * w1 * w2)

with tf.GradientTape() as tape:
    z = f(w1, w2)

tape.gradient(z, [w1, w2])

2.4 返回值为nan

解决办法（1）：重写函数，并使用来修饰它并使它既返回其正常输出又返回计算导数的函数

@tf.custom_gradient
def my_better_softplus(z):
    exp = tf.exp(z)
    def my_softplus_gradients(grad):
        return grad / (1 + 1 / exp)
    return tf.math.log(exp + 1), my_softplus_gradients

解决办法（2）：使用tf.where在较大输入时返回输入

def my_better_softplus(z):
    return tf.where(z > 30., z, tf.math.log(tf.exp(z) + 1.))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow

tensorflow

学习

深度学习

TensorFlow学习（6）自定义模型，使用自动微分计算梯度的相关文章

ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
如何使用 TFlearn 中的 ImageAugmentation 训练 CNN 中的图像和数据混合

我想使用图像像素信息和数据的混合在 Tflearn Tensorflow 中训练卷积神经网络由于我的图像数量较少因此我需要使用图像增强来增加传递到网络的图像样本数量但这意味着我只能传递图像数据作为输入数据必须在稍后阶段大概在全
在NN中指定连接（在keras中）

我正在使用 keras 和tensorflow 1 4 我想明确指定哪些神经元在两层之间连接因此每当第一层中的神经元 i 连接到第二层中的神经元 j 且其他地方为零时我就有一个矩阵 A 其中包含 1 我的第一次尝试是创建一个带有内核的
如何将张量推送到 TensorFlow 队列并从另一个进程中提取它们？

我有一个 TensorFlow 集群已启动并正在运行我正在尝试使用一个客户端进程将数据入队并将其从另一进程中出队我无法让它工作我做错了什么这是我的推送数据的程序 queue push py import tensorflow as
打印出网络架构中每一层的形状

在 Keras 中我们可以如下定义网络有什么办法可以输出每层之后的形状例如我想打印出以下形状inputs在定义行之后inputs 然后打印出形状conv1在定义行之后conv1 etc inputs Input 1 img rows
监控培训课程如何运作？

我试图理解使用之间的区别tf Session and tf train MonitoredTrainingSession 以及我可能更喜欢其中之一似乎当我使用后者时我可以避免许多杂务例如初始化变量启动队列运行程序或设置文件编写器以
如何清除 tf.flags？

如果我运行此代码两次 tf flags DEFINE integer batch size 2 batch size for training 我会得到这个错误 DuplicateFlagError The flag batch size
调用 tf.linalg.inv 时，TensorFlow 崩溃并显示无法创建 cuSolverDN 实例

我正在运行tensorflow tensoflow latest gpu码头集装箱我可以运行简单的向量运算例如矩阵乘法没有问题但是当我运行以下最小示例时 import tensorflow as tf tf linalg inv
如何在对象检测 API Tensorflow 中仅检测人体

我在用tensorflow对象检测 API 用于检测对象它在我的 Windows 系统中运行良好我如何对其进行更改以仅检测提到的对象例如我只想检测人类而不是所有对象根据此中的第 1 条评论answer https stackove
支持 Nvidia CUDA 工具包 9.2

Tensorflow gpu 绑定到 Nvidia CUDA Toolkit 的特定版本的原因是什么当前版本似乎专门寻找 9 0 并且不适用于任何更高版本例如我安装了最新的 Toolkit 9 2 并将其添加到路径中但 Tensor
使用输入管道时如何替换 feed_dict？

假设您有一个已与feed dict到目前为止将数据注入到图表中每隔几个时期我就会通过将任一数据集的一批数据输入到我的图表中来评估训练和测试损失现在出于性能原因我决定使用输入管道看看这个虚拟示例 import tensorflow
用于测试张量流安装的速度基准

我怀疑我的 GPU 机器上是否正确配置了张量流因为在我精美的 GPU 机器上训练一个简单的线性回归模型批量大小 32 1500 个输入特征 150 个输出变量的每次迭代速度比在笔记本电脑上慢 100 倍我使用的是 Titan X 配
tf.gfile 在 TensorFlow 中起什么作用？

我见过人们使用以下几个函数tf gfile例如tf gfile GFile or tf gfile Exists 我有一个想法tf gfile处理文件但是我无法找到官方文档来了解它还提供了什么如果你能帮我的话那就太好了对于登陆这里的
AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
通过 cmake 使用预编译的张量流

我已经建立了一个 C 项目CLion使用CMake 我正在使用各种第三方库并且还想集成张量流我试过了bazel编译张量流到共享库libtensorflow so哪种工作有效但是仍然有相当多的依赖项例如当前的 protobuf 版本
无需安装 Tensorflow 即可服务 Tensorflow 模型

我有一个经过训练的模型想在 python 应用程序中使用但我看不到任何在不安装 TensorFlow 或创建 gRPC 服务的情况下部署到生产环境的示例有可能吗在这种情况下正确的做法是什么如果不使用 TensorFlow 本身或
Tensorflow 到 ONNX 的转换

我目前正在尝试转换我使用本教程创建的已保存且正在工作的 pb 文件 https github com thtrieu darkflow https github com thtrieu darkflow 到 onnx 文件中我目前正在
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为

随机推荐

【深度学习】最全的十九种损失函数汇总

tensorflow和pytorch很多都是相似的这里以pytorch为例文章目录一 L1范数损失 L1Loss 二均方误差损失 MSELoss 三交叉熵损失 CrossEntropyLoss 四 KL 散度损失 KLDivLos
数仓建模宽表设计

一宽表的设计其实宽表是数仓里面非常重要的一块前面我们介绍过了维度表事实表今天我们介绍一下宽表前面我们说过了数仓是分层的这是技术进步和时代变化相结合的产物数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发宽表主要出现在d
关于二进制的一个题目

关于二进制的一个题目猜测下面count的个数 test23d cpp 定义控制台应用程序的入口点 include stdafx h include
【Copilot】GitHub Copilot could not connect to server. Extension activation failed: “read ECONNRESET“

背景搞了个Copilot 在VS里完美运行但VScode里就一直报这个错误 GitHub Copilot could not connect to server Extension activation failed read ECON
数据库锁表如何处理

前段时间阿粉在公司开发的时候不慎导致了数据库产生了锁表的操作因为阿粉之前从来没有遇到过之前只是了解过一点所以导致了锁表于是阿粉为了解决问题研究了一下这一部分的内容于是决定把这一块的知识分享给大家数据库锁定机制话说如果你只是
将pbr移植到osg中的需要注意模型法线

在pbr移植到osg中时有时发现发黑原因是光线方向和模型方向相反在max dot N L 0 计算是自然就是0了也很简单取绝对值即可即改为max abs dot N L 0 虽然不一定正确但是效果起码出来了另外传递浮点
react-json-view（一看就会的教程）

最近业务上需要用到json可视化的需求在这给大家安利一个前端页面很好用的插件react json view 第一步安装插件npm install save react json view 或者 yarn react json view
持续集成Jenkins安装部署

Jenkins是一个在DevOps领域中支持CI CD 持续集成持续交付过程域的开源项目其提供可扩展插件的支持以自动化的机制对项目工程执行打包编译构建测试以及最终发布到目的地服务器并成功部署运行本文主要描述Jenkins的
Angular表单创建和校验

Angular中提供了模板驱动表单和响应式表单相对来做模板驱动表单使用更加简单只需要在表单外围添加 myForm ngForm 指令给每个表单项添加ngModel指令和name属性然后就可以通过myform value获取到表单中
阿里云数据库RDS MySQL 物理全备文件数据恢复至自建数据库Mysql 5.7中

环境介绍 CentOS 7 5 Mysql 5 7 percona xtrabackup 24 注意事项操作系统中已安装数据恢复工具Percona XtraBackup 您可以从Percona XtraBackup官网下载安装 MySQL
高并发系统设计--负载均衡与API网关

负载均衡负载均衡有两个用途 1 将负载均衡的分配到多个处理节点上减少单个处理节点的请求量提升整体系统的性能 2 作为流量入口对请求方屏蔽服务节点的部署细节实现对业务方无感的扩容可以分为两大类一类是代理类的负载均衡服务另一类
VMware Workstation 17 pro下载安装教程

VMware Workstation 17 pro下载安装教程 Hello 感谢大家阅读我的文章有问题评论区留言呦最近课题组新配了电脑自带Win11操作系统所以我这里安装VMware的时候就下载了最新版的17 pro 它是支持Wi
NCC中实现单点登录服务发布

NCC中实现单点登录服务发布前言本文档旨在从方案能力及开发方式几个方面对单点登录进行讲解相关资料百度网盘社区资料概念介绍单点登录 Single Sign On 简称为 SSO 是比较流行的企业业务整合的解决方案之一 SS
vue实现动画滚动效果

效果如下 npm https www npmjs com package vue seamless scroll activeTab versions 官网 https chenxuan0000 github io vue seamless
WebSocket 协议介绍

WebSocket 协议 1 相关技术背景介绍客户端浏览器和服务端在是怎么进行通信的呢当前许多传统应用的 Web 项目是通过简单的 AJAX 来进行通信的 AJAX 是一种用于创建快速动态网页的技术通过在后台与服务器进行少量数据
力扣645 错误的集合位运算

1 https leetcode cn com problems set mismatch solution cyi huo fa xiang jie by feng feng 19 边界条件的设定很难想到 t sum sum https
JDBC连接MySQL,增删改查方法

1 加载驱动 Class forName 参数为 com mysql jdbc Driver Mysql 5 8版本 8 0版本jar包参数为 com mysql cj jdbc Driver 2 建立连接 URL jdbc mysql
项目管理1：嵌入式系统项目失败的7个隐形杀手

转自飞凌论坛一部分 http bbs witech com cn forum php mod viewthread tid 71580 extra page 3D3 人人都是项目经理的年代但不是人人都是合格的项目经理 1 范围潜变每个项
原 PyTorch学习之六个学习率调整策略.图示

How to adjust Learning Rate torch optim lr scheduler LambdaLR torch optim lr scheduler StepLR torch optim lr scheduler M
TensorFlow学习（6）自定义模型，使用自动微分计算梯度

1 自定义模型 1 1 构建自定义模型的基本步骤继承keras Model类在构造函数中创建层和变量实现call方法来执行操作实现get config 实现了get config 就可以使用save 方法保存模型并使用keras m