Tensorflow:如何在模型训练过程中实时监控 GPU 性能?

2024-04-15

我是 Ubuntu 和 GPU 新手,最近在我们的实验室中使用了一台配备 Ubuntu 16.04 和 4 个 NVIDIA 1080ti GPU 的新 PC。该机还拥有i7 16核处理器。

我有一些基本问题:

  1. 为 GPU 安装 Tensorflow。我猜想,它会自动优先考虑 GPU 使用吗?如果是这样,它是一起使用所有 4 个,还是使用 1 个,然后在需要时招募另一个?

  2. 我可以在模型训练期间实时监控 GPU 使用/活动吗?

我完全理解这是基本的硬件内容,但对这些具体问题的明确明确的答案会很棒。

EDIT:

根据此输出 - 这真的是说我的每个 GPU 上的几乎所有内存都已被使用吗?


  1. Tensorflow 不会自动利用所有 GPU,它只会使用一个 GPU,特别是第一个 GPU/gpu:0

    您必须编写多 GPU 代码才能利用所有可用的 GPU。cifar 多 GPU 示例 https://github.com/petewarden/tensorflow_makefile/blob/master/tensorflow/models/image/cifar10/cifar10_multi_gpu_train.py

  2. 每 0.1 秒检查一次使用情况

    watch -n0.1 nvidia-smi

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow:如何在模型训练过程中实时监控 GPU 性能? 的相关文章

  • 在Python列表中交换元素的最快方法

    在Python中交换两个列表元素是否有比 L a L b L b L a 或者我必须求助于Cython http cython org or Weave http www scipy org Weave或类似的 看起来 Python 编译器
  • 交换keras中的张量轴

    我想将图像批次的张量轴从 batch size row col ch 交换为 批次大小 通道 行 列 在 numpy 中 这可以通过以下方式完成 X batch np moveaxis X batch 3 1 我该如何在 Keras 中做到
  • 在 nHibernate 关系中使用实体的 Lite 版本?

    在某些情况下 出于性能原因 创建一个实体的轻量级版本 指向同一个表 但映射的列较少 这是一个好主意吗 例如 如果我有一个包含 50 列的联系人表 并且在一些相关实体中 我可能对 FirstName 和 LastName 属性感兴趣 那么创建
  • goto 指令对 CUDA 代码中扭曲内发散的影响

    对于CUDA中简单的warp内线程发散 我所知道的是SM选择一个重新收敛点 PC地址 并在两个 多个路径中执行指令 同时禁用未采用该路径的线程的执行效果 例如 在下面的代码中 if threadIdx x lt 16 A do someth
  • Java 11 中使用堆栈跟踪的速度明显慢于 Java 8

    我正在比较 JDK 8 和 11 的性能jmh https openjdk java net projects code tools jmh 1 21 当我遇到一些令人惊讶的数字时 Java version 1 8 0 192 vendor
  • ubuntu 20.04 上无法获取卷积算法错误~tensorflow-gpu

    我有一个 NVIDIA 2070 RTX GPU 我的操作系统是 Ubuntu20 04 我已经使用 conda 安装了tensorflow gpu 包 我有not安装了 CUDA toolkit 我相信它还会安装 CUDA toolkit
  • 无法使用 tf.data.Dataset 对组件 0 中具有不同形状的张量进行批处理

    我的输入管道中出现以下错误 tensorflow python framework errors impl InvalidArgumentError 不能 分量 0 中具有不同形状的批量张量 第一个元素有 形状为 2 48 48 3 元素
  • 与保留模式 GUI 相比,使用立即模式 GUI 对性能有何影响?

    我目前正在开发一个标准的 Windows 桌面应用程序 标准意味着没有花哨的东西 只是按钮 文本 滑块等 在研究了一些 GUI 框架并被拒绝后 我决定自己编写一个 GUI 框架他们全部 由于这是一个业余爱好项目 我也愿意尝试 并决定将 GU
  • Keras CNN 回归模型损失低,准确度为 0

    我在 keras 中遇到这个 NN 回归模型的问题 我正在研究一个汽车数据集 以根据 13 个维度预测价格 简而言之 我已将其读取为 pandas 数据帧 将数值转换为浮点数 缩放值 然后对分类值使用 one hot 编码 这创建了很多新列
  • 优化我的表现

    我正在开发一个使用 Zend Framework 1 11 Doctrine 2 一些 Symfony 2 组件以及其他工具和库的项目 我正在尝试使用 Xdebug 和 Webgrind 优化性能 我已经发现了一些瓶颈 例如解析 Ini 配
  • 高效秒表

    您好 我正在用 javascript 编写一个秒表实用程序 我有一个关于效率和开销的问题 我考虑过两种制作秒表的方法 1 存储开始日期并不断测量自该日期以来经过的毫秒数 2 创建一个整数并按设定的时间间隔递增其值 我想知道哪个最有效 另外
  • 为什么动态 qml 对象的创建如此缓慢,有哪些合理的替代方案?

    我想要实现的目标类似于棋盘游戏 有一个100 100的网格 放在一个Item它驻留在一个Flickable 游戏板 的各个矩形都是 svg 图像 目前大约有 20 种 可能会增加到数百种 作为基准测试 我只是尝试用元素填充 世界 Compo
  • 快速查询最新记录的方法?

    我有一张这样的表 USER PLAN START DATE END DATE 1 A 20110101 NULL 1 B 20100101 20101231 2 A 20100101 20100505 在某种程度上 如果END DATE i
  • 到 ToList() 还是不到 ToList()?

    给定一个在记忆中 不是 LINQ to SQL 类列表 List
  • 会话重新启动后 AVcapture 会话启动缓慢

    我有一个主视图控制器 它连接到具有 avcapturesession 的第二个视图控制器 我第一次从主视图控制器转向捕获会话控制器 大约需要 50 毫秒 使用 仪器 检查 然后我从捕获会话返回到主视图控制器 然后从主控制器返回到 avcap
  • 是否可以使用“git gc”来打包引用日志对象?

    正如答案所暗示的https stackoverflow com a 32025729 https stackoverflow com a 32025729我已经配置了远程裸仓库 git config gc pruneExpire never
  • Tensorboard SyntaxError:语法无效

    当我尝试制作张量板时 出现语法错误 尽管开源代码我还是无法理解 我尝试搜索张量板的代码 但不清楚 即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
  • VBS 与 PowerShell:哪个更轻?

    如果我需要一个可以在系统中以最少的努力执行的脚本 我会选择哪个 通过查看任务管理器中的进程 内存 私有工作集 wscript exe 2 068Kpowershell exe 33 144K Thanks 这里存在工作守恒定律 如果机器做的
  • 无法加载 DLL“tensorflow”或其依赖项之一(ML.NET)

    我有一个用于图像分类的 NET Core 3 应用程序 使用 Microsoft 的 ML NET 框架 在我的开发机器上 我可以运行代码并且一切正常 但是 当我将其部署到临时服务器时 我在运行时收到此错误 System Reflectio
  • WCF 服务 - 启动需要额外时间

    我发现 WCF 服务将需要 8 10 秒来加载第一个命中 之后将需要不到一秒钟的时间 有什么想法吗 可能是由于 NET 的冷启动 您是否考虑过设置IIS 预热模块它在初始请求之前初始化依赖项 来自学习IIS网站 http learn iis

随机推荐

  • 受密码保护的 pdf 中密码字段不可见

    我正在使用 PDF 套件框架来显示 编辑 pdf 文件 它在 macOS 10 12 上严重损坏 有时受密码保护的文件不显示密码字段 有时密码字段在普通文件中可见 我可以使用未记录的 API 来修复此问题 它的问题与隐藏 取消隐藏密码视图有
  • javax.net.ssl.SSLException:SSLSocketFactory 为 null

    我的以下代码有问题 System setProperty javax net ssl keyStoreType pkcs12 System setProperty javax net ssl trustStoreType jks Syste
  • 从核心数据中获取子项总和

    假设我有三个实体 Person 姓名 地址 对多工资 和 对多贷款 Salary 收入 税 相对 对一个人 Bills数量 相对 对一个人 如何执行获取结果如下 John Doe SUM gt 收入 SUM gt 金额 Eva Doe SU
  • ES2015 (ES6) `class` 语法有什么好处?

    我对 ES6 类有很多疑问 使用有什么好处class句法 我读到 public private static 将成为 ES7 的一部分 这是一个原因吗 而且 是class一种不同类型的 OOP 或者它仍然是 JavaScript 的原型继承
  • Android 收到新电子邮件时如何执行一些代码?

    在 Android 中 当新电子邮件 gmail 到达时 如何执行一些代码 在 Android 中 当新电子邮件 gmail 到达时 如何执行一些代码 没有记录的广播Intents当 Gmail 到达时发送出去 Gmail 不是 Andro
  • 处理单数和复数控制器/路由

    我对如何在网络应用程序中处理单数和复数路由和控制器感到有点困惑 该网站是一个简单的报价网站 想想爱因斯坦 莎士比亚等 而不是保险 在项目中 我有一个名为 QuoteController 的控制器 控制器名称是单数 那么这是否意味着控制器应该
  • 检查 csv 列中除一项之外的所有项目 [python pandas]

    我试图弄清楚如何使用 python pandas 检查整个列以验证所有值都是整数 除了一个 一行名称始终有一个浮点数 CSV 示例 name num random1 2 random2 3 random3 2 89 random4 1 ra
  • 使用 Volley android 将发布数据发送到服务器

    我正在尝试使用 Volley 库向服务器发送一些数据 private void registerUser final String email final String username final String password Tag
  • Shadow dom 内的 FontAwesome svg

    我正在尝试在 Web 组件中使用 font Awesome js svg 库 但图标不会显示 这可能吗 我正在尝试在现有的 webforms 项目中实现一个角度组件 而无需 css 和脚本 流血 关于如何做到这一点还有其他建议吗 ifram
  • 如何使用 gtest 对 std::bind 函数进行单元测试?

    我正在尝试为项目中的一些 cpp 文件编写单元测试用例 这里的场景是 我有一个 cpp 文件 只定义了一个公共方法 然后又调用私有方法 这里私有方法在公共方法中作为回调方法被调用 我如何在这里测试私有方法 我将对回调指针进行模拟 但我不知道
  • 如何更新 ListView 中的单行?

    我有一个ListView显示新闻项目 它们包含图像 标题和一些文本 图像加载在一个单独的线程中 带有队列和所有 当下载图像时 我现在调用notifyDataSetChanged 在列表适配器上更新图像 这可行 但是getView 被调用太频
  • .NET Core依赖注入,解析泛型接口

    我在 ASP NET Core 依赖注入方面遇到问题 无法解析 IServiceProvider 的通用接口 这是我的设置 通用接口 public interface IRequest
  • 有没有办法在表达式树中设置“DeclaringType”?

    我正在做一个Func gt 表达 gt Func转换 如果我从方法 下面的第一个示例 创建 Func 它工作得很好 但是如果我使用表达式树 第二个示例 创建函数 它会失败并显示空引用异常当访问时func2 Method DeclaringT
  • 使用字符向量索引命名数据帧的嵌套列表 - R

    我有一个命名数据框的嵌套列表 如下所示 mylist2 lt list list df1 a data frame replicate 2 sample 0 1 5 rep TRUE df2 b data frame replicate 2
  • 在命令行上构建 Windows 8 Phone 应用程序

    我目前正在将现有的跨平台框架移植到 Windows Phone 8 构建过程是完全自动化的 我们使用的是坚如磐石的 CI 系统 我可以从 Visual Studio Express 2012 构建和部署 Windows Phone 8 示例
  • 帮助我使用 jquery 验证插件的远程方法

    任何人都可以帮助我使用jquery远程 验证方法 我的意思是我知道如何在 jquery 部分使用它 谁能告诉我服务器端部分 我正在使用 PHP 和 codeigniter 来做到这一点 考虑下面的例子 myform validate rul
  • 如何使用 jQuery Uniform 库取消选中复选框

    我在取消选中时遇到问题checkbox 看一下我的jsFiddle http jsfiddle net r87NH 我正在尝试 check2 attr checked true I use uniform http pixelmatrixd
  • Spring Web 服务客户端和服务器 - 未找到端点映射

    我正在尝试将基于 Spring WS 的服务器和基于 Spring WS 的客户端连接在一起 在服务器上使用 org codehaus mojo jaxb2 maven plugin 在客户端上使用 org jvnet jaxb2 mave
  • Jenkins Groovy 如何在不结束管道的情况下从 @NonCPS 方法调用方法

    我需要在 Jenkins Pipeline 中解析一些 JSON 并在循环中调用一些常规方法 但是脚本总是在第一个函数调用后退出 这个怎么做 import groovy json JsonSlurper import com cloudbe
  • Tensorflow:如何在模型训练过程中实时监控 GPU 性能?

    我是 Ubuntu 和 GPU 新手 最近在我们的实验室中使用了一台配备 Ubuntu 16 04 和 4 个 NVIDIA 1080ti GPU 的新 PC 该机还拥有i7 16核处理器 我有一些基本问题 为 GPU 安装 Tensorf