Tensorflow - 多 GPU 不适用于模型（输入），也不适用于计算梯度

2023-12-30

当使用多个GPU对模型进行推理（例如调用方法：model(inputs)）并计算其梯度时，机器只使用一个GPU，其余的GPU闲置。

例如下面的代码片段：

import tensorflow as tf
import numpy as np
import os

os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"

# Make the tf-data
path_filename_records = 'your_path_to_records'
bs = 128

dataset = tf.data.TFRecordDataset(path_filename_records)
dataset = (dataset
           .map(parse_record, num_parallel_calls=tf.data.experimental.AUTOTUNE)
           .batch(bs)
           .prefetch(tf.data.experimental.AUTOTUNE)
          )

# Load model trained using MirroredStrategy
path_to_resnet = 'your_path_to_resnet'
mirrored_strategy = tf.distribute.MirroredStrategy()
with mirrored_strategy.scope():
    resnet50 = tf.keras.models.load_model(path_to_resnet)

for pre_images, true_label in dataset:
    with tf.GradientTape() as tape:
       tape.watch(pre_images)
       outputs = resnet50(pre_images)
       grads = tape.gradient(outputs, pre_images)

仅使用一个 GPU。您可以使用 nvidia-smi 分析 GPU 的行为。我不知道事情是否应该是这样的，无论是model(inputs) and tape.gradient没有多 GPU 支持。但如果是的话，那就是一个大问题了，因为如果你有一个很大的数据集并且需要计算相对于输入的梯度（例如可解释性函数），那么使用一个 GPU 可能需要几天的时间。我尝试的另一件事是使用model.predict()但这是不可能的tf.GradientTape.

到目前为止我已经尝试过但没有成功

将所有代码放在镜像策略范围内。
使用不同的 GPU：我尝试过 A100、A6000 和 RTX5000。还改变了显卡的数量并改变了批量大小。
指定 GPU 列表，例如，strategy = tf.distribute.MirroredStrategy(['/gpu:0', '/gpu:1']).
添加了这个strategy = tf.distribute.MirroredStrategy(cross_device_ops=tf.distribute.HierarchicalCopyAllReduce())正如@Kaveh 所建议的。

我如何知道只有一个 GPU 正在工作？

我使用了命令watch -n 1 nvidia-smi在终端中观察到只有一个 GPU 为 100%，其余均为 0%。

工作示例

您可以在下面找到一个在 dogs_vs_cats 数据集上训练的 CNN 的工作示例。您不需要像我使用 tfds 版本一样手动下载数据集，也不需要训练模型。

Notebook: 工作示例.ipynb https://drive.google.com/file/d/1CoYVckmEQXp2Wf_PRlGtnrlGnF8smxvt/view?usp=sharing

已保存模型:

HDF5 https://drive.google.com/file/d/1Y0-fQytVsnHPs8JL6kKJr3tEL0mKNtjJ/view?usp=sharing
保存格式 https://drive.google.com/file/d/19oSIaUTtEy1q6rlDj8GzuWIvwAq_7XMi/view?usp=sharing

It is supposed在单个 GPU 中运行（可能是第一个 GPU，GPU:0）对于任何超出范围的代码mirrored_strategy.run()。另外，由于您希望从副本返回梯度，mirrored_strategy.gather()也是需要的。

除此之外，还必须使用以下命令创建分布式数据集mirrored_strategy.experimental_distribute_dataset。分布式数据集尝试在副本之间均匀分布单批数据。下面包含有关这些要点的示例。

model.fit(), model.predict()等...以分布式方式自动运行，因为它们已经为您处理了上述所有内容。

示例代码：

mirrored_strategy = tf.distribute.MirroredStrategy()
print(f'using distribution strategy\nnumber of gpus:{mirrored_strategy.num_replicas_in_sync}')

dataset=tf.data.Dataset.from_tensor_slices(np.random.rand(64,224,224,3)).batch(8)

#create distributed dataset
ds = mirrored_strategy.experimental_distribute_dataset(dataset)

#make variables mirrored
with mirrored_strategy.scope():
  resnet50=tf.keras.applications.resnet50.ResNet50()

def step_fn(pre_images):
  with tf.GradientTape(watch_accessed_variables=False) as tape:
       tape.watch(pre_images)
       outputs = resnet50(pre_images)[:,0:1]
  return tf.squeeze(tape.batch_jacobian(outputs, pre_images))

#define distributed step function using strategy.run and strategy.gather
@tf.function
def distributed_step_fn(pre_images):
  per_replica_grads = mirrored_strategy.run(step_fn, args=(pre_images,))
  return mirrored_strategy.gather(per_replica_grads,0)

#loop over distributed dataset with distributed_step_fn
for result in map(distributed_step_fn,ds):
  print(result.numpy().shape)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow - 多 GPU 不适用于模型（输入），也不适用于计算梯度的相关文章

ValueError：形状（无，50）和（无，1）在 Tensorflow 和 Colab 中不兼容

我正在使用 LSTM 训练 Tensorflow 模型以进行预测维护对于每个实例我创建一个矩阵 50 4 其中 50 是历史序列的长度 4 是每个记录的特征数量因此为了训练模型我使用例如 55048 50 4 张量和 55048 1
Tensorflow GPU 设置：PyCharm 上的 CUDA 错误

我在 Python3 MacOSX El Capitan 上安装了 TF 0 8 当为 TF 运行简单的测试代码时我收到以下消息 ImportError dlopen Library Frameworks Python framework
在 Tensorflow 对象检测 API 中将图像裁剪到边界框

如何将图像裁剪到 Tensorflow 中的边界框我正在使用Python API 从文档来看 tf image crop to bounding box image offset height offset width target he
导入tensorflow时，出现以下错误：没有名为“numpy.core._multiarray_umath”的模块

我已经安装了 Ancaconda3 和 Tensorflow 当我尝试在 python shell 中导入 Tensorflow 时收到以下错误 ModuleNotFoundError 没有名为 numpy core multiarray
为什么 scikit learn 的平均精度分数返回 nan？

我的 Keras 模型旨在接收两个输入时间序列将它们连接起来通过 LSTM 提供它们并在下一个时间步骤中进行多标签预测有 50 个训练样本每个样本有 24 个时间步每个样本有 5625 个标签有 12 个验证样本每个样本有
Tensorboard 和 Dropout 层

我有一个非常基本的查询我制作了 4 个几乎相同差异在于输入形状的 CNN 并在连接到全连接层的前馈网络时合并了它们几乎相同的 CNN 的代码 model3 Sequential model3 add Convolution2D 32
tf.gfile 在 TensorFlow 中起什么作用？

我见过人们使用以下几个函数tf gfile例如tf gfile GFile or tf gfile Exists 我有一个想法tf gfile处理文件但是我无法找到官方文档来了解它还提供了什么如果你能帮我的话那就太好了对于登陆这里的
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
如何强制tensorflow使用所有可用的GPU？

我有一个 8 GPU 集群当我运行Kaggle 的一段 Tensorflow 代码 https www kaggle com keegil keras u net starter lb 0 277 scriptVersionId 2164
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
如何解释tf.map_fn的结果？

看代码 import tensorflow as tf import numpy as np elems tf ones 1 2 3 dtype tf int64 alternates tf map fn lambda x x x x el
从 swift 数组创建张量

这工作正常 import TensorFlow var t Tensor
Tensorflow 导入错误：没有名为“tensorflow”的模块

我在 Windows Python 3 5 Anaconda 环境中安装了 TensorFlow 验证成功有警告 tensorflow C gt python Python 3 5 3 英特尔公司默认 2017 年 4 月 27 日 1
Keras CNN 回归模型损失低，准确度为 0

我在 keras 中遇到这个 NN 回归模型的问题我正在研究一个汽车数据集以根据 13 个维度预测价格简而言之我已将其读取为 pandas 数据帧将数值转换为浮点数缩放值然后对分类值使用 one hot 编码这创建了很多新列
ResNet34 在 Keras.application 中可用吗？

我想包装一个 keras ResNet34 模型但似乎只有 ResNet50 可以从 keras applications 导入有没有一种方法可以直接导入 ResNet34 而不用构建 ResNet34 我在网上找到了以下代码但我想知
获取 Keras model.summary() 作为表

我在 Keras 中创建了相当大的模型我正在用 LaTeX 写一篇关于它的文章为了很好地描述 LaTeX 中的 keras 模型我想用它创建一个 LaTeX 表我可以手动实现它但我想知道是否有任何更好的方法来实现这一点我四处
错误优化器参数在 Keras 函数中不合法

我使用以下代码来计算数据生成质量指标的拟合优度研究的概率标签 from sklearn model selection import StratifiedKFold from sklearn model selection import K
如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量

随机推荐

使用 libcurl 固定 SSL 证书

我想知道这个示例是否足以通过 libcurl 提供证书固定 http curl haxx se libcurl c cacertinmem html http curl haxx se libcurl c cacertinmem html
使用文本缩放按钮中的drawableLeft

我有一个带有文本的按钮左侧有一个可绘制的按钮有什么方法可以使可绘制比例达到适当的尺寸填充按钮的高度同时保持其纵横比我的布局的相关摘录
如何在 Doorkeeper::TokenController 上使用 before_action

我在使用 Doorkeeper TokensController 时遇到问题我想在请求访问令牌之前执行一些代码无论是否创建我都想记录它使用before action 默认路由是POST oauth token Doorkeeper
返回字符串及其 .c_str() 的生命周期[重复]

这个问题在这里已经有答案了我遇到过这种模式的多个实例仅使用 boost filesystem 作为示例 boost filesystem path path someFunctionTakingCStrings path string
如果我已经在使用 Modernizr，我还需要 HTML5 Shiv 吗？

1 如果我已经在使用 Modernizr 我还需要 HTML5 Shiv 来启用 IE 的 HTML5 标签支持吗 2 HTML5 Shiv 仅适用于 IE 还是适用于所有不支持本机 HTML 5 的浏览器喜欢旧版本的 Firefox S
Slick 3.0 在数据库驱动程序级别是反应式/异步的吗？适用于哪些数据库？

Slick 历来依赖于 JDBC 驱动程序该驱动程序在内部阻止等待套接字 I O 以响应查询每个未完成的数据库调用都需要一个线程在套接字上阻塞因此它并不是像 ReactiveMongo postgresql async 和 mysq
nhibernate动态绑定一个类

我读了本文 http www mattfreeman co uk 2009 01 nhibernate 21 trunk entity name some inheritance and dynamic component 并且正在寻找一种
使用正文启动消息传递应用程序

我有这个代码来打开消息我想添加正文 Intent i6 new Intent Intent ACTION VIEW Uri parse sms 9986377561 startActivity i6 添加正文正文测试文本 Intent
在 ToString() 之前检查 null

这是场景 if entry Properties something Value null attribs something entry Properties something Value ToString 虽然有效且工作正常但对我来
迁移期间未找到实体框架外键

在将键和外键添加到数据模型后设置迁移时我遇到意外错误我使用的是 VS2013 Express 带有 NET Framework 4 5 为实体框架创建数据模型时由于类之间的关系键不是惯例所期望的因此我使用数据注释如微软数据开发中心
我应该将 Javascript 放在 HTML 文件的头部还是正文中？

我正在制作一个搜索引擎当用户访问我的页面时我有将 http 重定向到 https 的代码但我不确定是否应该将其放在页面的 head 或 body 部分这是我所得到的 if window location protocol https
活动和片段生命周期以及方向变化

我一直遇到很奇怪的问题Fragments导致强制关闭且不遵循逻辑模式的方向变化我创建了一个简单的Activity and Fragment生命周期调试应用程序它简单地实现了活动生命周期 http developer android co
java.lang.IllegalArgumentException：未找到命名查询。（实体管理器未创建 NamedQuery）

我正在使用 hibernate 4 1 5 Final 和 Spring 3 1 2 Release 和 Jboss 7 1 我已在带有 NamedQuery 注释的类中编写了所有命名查询但实体管理器未创建命名查询我正在发布 stack
如何使用 Google 应用签名为 Sms Retriever 生成 11 个字符的哈希密钥

我使用以下命令生成了 11 个字符的哈希值AppSignatureHelper班级但是将 apk 上传到 Play 商店后它们的哈希值就不再起作用了我发现 Play 将密钥替换为另一个密钥这就是哈希值也发生更改的原因现在我在获取
jQuery UI 中的disableSelection 有何用途？

有人可以帮助我理解为什么它有用以及何时使用它 sortable disableSelection 如果您想让文本变得不可选择它会很有用例如如果您想要制作带有文本的拖放元素那么在尝试拖动框时如果框上的文本意外被选中那么用户会很烦恼
如何使用javascript打开一个文件夹并列出其中的html文件名？

我想使用 JavaScript 在浏览器中列出特定文件夹中 HTML 文件的名称有人可以帮我吗谢谢如果您使用在浏览器中运行的 Javascript 则无法打开文件夹您必须通过某种数据结构或通过解析服务器生成的 HTML 文件夹索
使用 Google Analytics 跟踪 Google 表单提交情况

我正在使用 Google Forms 一个 Google 文档电子表格其中包含自动生成的表单用户可以填写该表单来提交其详细信息并且希望在 Google Analytics 分析中以虚拟综合浏览量的形式跟踪表单的提交以便我可以衡量转
是否可以从网页打开新的 Lync 对话？

我想在用户 Lync 客户端中打开一个新对话其中包含预先确定的消息文本但消息的收件人由用户选择此过程从用户单击网站上的链接开始那可能吗这里的部分问题是如果不知道要与谁开始对话如果有意义的话则无法打开对话窗口从网页上您可以
如何在 Dymola 中隐藏模拟变量

模拟模型后是否可以隐藏对象或输出我有很多东西我觉得我在浪费时间筛选它们试图找到我的正确答案如果没有有没有办法组织我的输出在模拟选项卡中的显示方式 Thanks Dymola 的主要可能性是使组件受到保护默认情况下受保护的组件不
Tensorflow - 多 GPU 不适用于模型（输入），也不适用于计算梯度

当使用多个GPU对模型进行推理例如调用方法 model inputs 并计算其梯度时机器只使用一个GPU 其余的GPU闲置例如下面的代码片段 import tensorflow as tf import numpy as np imp

Tensorflow - 多 GPU 不适用于模型（输入），也不适用于计算梯度

Tensorflow - 多 GPU 不适用于模型（输入），也不适用于计算梯度 的相关文章

随机推荐

热门标签

Tensorflow - 多 GPU 不适用于模型（输入），也不适用于计算梯度的相关文章