分布式tensorflow在运行server.init后独占GPU

2024-01-12

我有两台计算机，每台计算机都有两个 GPU。我试图从分布式张量流开始，但对它是如何工作的感到非常困惑。在计算机 A 上我想要一个ps任务（我的印象是这应该在CPU上进行）和两个worker任务（每个 GPU 一个）。我想在计算机 B 上有两个“工人”任务。以下是我尝试实现此目的的方法，在test.py

import tensorflow as tf
import argparse

parser = argparse.ArgumentParser()
parser.add_argument('--job_name',   required = True,            type = str)
parser.add_argument('--task_idx',   required = True,            type = int)
args, _    = parser.parse_known_args()
JOB_NAME   = args.job_name
TASK_INDEX = args.task_idx


ps_hosts     = ["computerB-i9:2222"]
worker_hosts = ["computerA-i7:2222", "computerA-i7:2223", "computerB-i9:2223", "computerB-i9:2224"]
cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts})
server  = tf.train.Server(cluster, job_name = JOB_NAME, task_index = TASK_INDEX)

if JOB_NAME == "ps":
    server.join()
elif JOB_NAME == "worker":
    is_chief = (TASK_INDEX == 0)    

    with tf.device(tf.train.replica_device_setter(
            worker_device = "/job:worker/task:%d" % FLAGS.task_index, cluster = cluster)):

        a = tf.constant(8)
        b = tf.constant(9)

    with tf.Session(server.target) as sess:
        sess.run(tf.multiply(a, b))

我通过跑步发现了什么python3 test.py --job_name ps == task_idx 0在计算机 A 上，我看到计算机 A 上的两个 GPU 已立即被脚本保留，并且计算机 B 显示没有活动。这不是我所期望的。我以为自从ps我只是运行的工作server.join()这不应该使用 GPU。不过我可以通过设置看到pdb一旦服务器初始化，GPU 就会被占用。这给我留下了几个问题：

- 为什么服务器会立即占用所有 GPU 容量？ - 我应该如何分配 GPU 并启动不同的进程？ - 我原来的计划还有意义吗？（我仍然对任务、集群、服务器等感到有点困惑......）

我观看了 2017 年 Tensorflow 开发者峰会上有关分布式 Tensorflow 的视频，也一直在 Github 和博客上查找。我无法找到使用最新甚至相对较新的分布式张量流函数的工作代码示例。同样，我注意到 Stack Overflow 上的许多问题都没有得到解答，因此我阅读了相关问题，但没有任何可以解决我的问题的问题。我将不胜感激有关其他资源的任何指导或建议。谢谢！

我发现从命令行调用时以下内容将起作用：

CUDA_VISIBLE_DEVICES="" python3 test.py --job_name ps --task_idx 0 --dir_name TEST

由于我在很多代码示例中发现了这一点，因此这似乎可能是控制单个服务器对 GPU 资源的访问的标准方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

分布式tensorflow在运行server.init后独占GPU 的相关文章

Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
需要 TensorFlow 依赖项。如何在 Windows 上运行 TensorFlow

我有兴趣让 TensorFlow 在 Windows 上运行但目前我意识到这是不可能的因为某些依赖项无法在 Windows 上使用例如巴泽尔之所以出现这种需求是因为据我目前了解从 TensorFlow 访问 GPU 的唯一方法是
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

对于访问创建它的脚本的每个用户来说，mysql临时表是唯一的...？

当用户在特定日期之间搜索免费酒店时在寻找一种临时保存搜索结果的方法时我遇到了临时表但某些问题即使在 mysql 手册中也没有得到解答比如临时表对于执行脚本的每个用户来说都是唯一的吗或者当两个不同的用户同时运行脚本时它会被覆盖桌
将 Excel 文件从压缩文件夹读入 R 数据帧

我有一个 Excel 文件 xls 扩展名位于一个压缩文件夹内我想将其作为数据帧读取到 R 中我加载了 gdata 库并将工作目录设置为包含压缩文件夹的文件夹当我输入以下语法时 data frame1 lt read xls un
Azure Devops YAML 管道 - 如何重复任务

在我的 YAML 管道中我有一个部署作业 stage deployment to development jobs deployment deployment to development displayName Deploy to De
来自不同插件的重复控制器名称

我有一个关于 Cakephp2 3 的文件加载系统的问题我有两个插件让我们称它们为联系人和经理加载如下 CakePlugin load Contacts CakePlugin load Managers 它们每个都有一个名为 D
DBCP 连接池登录超时

根据DBCP文件 http commons apache org dbcp apidocs org apache commons dbcp BasicDataSource html setLoginTimeout 28int 29 Basi
如何将包含连字符的键的对象解构为变量？ [复制]

这个问题在这里已经有答案了如何从键包含连字符的对象解构属性 Eg accept ranges bytes cache control public max age 0 content length 1174 content type ap
为 Chrome 扩展注入 CSS

我对 Chrome 扩展开发还很陌生我知道可以注入CSS 但是是否可以为特定的 URL 注入它例如每当我访问 google com 时 CSS 就会被注入谢谢您的帮助那么您有 2 个选择编程注入和内容脚本这些名字可能听起来非
将 csv 文件导入 java swing 表

我有纽约证券交易所所有股票报价的 csv 文件第一列是符号第二列是公司名称我有一个使用 java swing 库在 netbeans 中制作的搜索框和表格现在当我在框中输入名称时它会返回正确的行数例如如果我搜索 GOOG 它只
根据调整窗口大小的动态高度 div

HTML div class header Header div div class body table class body table tr td Cell td td Cell td td Cell td tr tr td Cell
如何在for循环中声明变量？（IDL）

例如我的文件以00 dat 01 dat 02 dat 每个文件包含多个列我使用READCOL将它们读入变量 for i 0 n 1 do begin readcol string i F I02 dat F D D a0 b0 rea
postgresql中如何计算空值？

select distinct column from table output column 1 0 0 2 null 3 1 0 但是当我尝试计算空值时 select count column from train where colu
直接访问子类中自动合成的实例变量？

为了提高效率我想访问与子类中的属性关联的成员变量如果我有一个声明如下的财产 interface Mumbo NSObject property nonatomic GLKVector3 position end 在 Mumbo 的实现中
使用 Win32 API 连接字符串

使用 Win32 连接字符串的最佳方法是什么如果理解正确正常的 C 方法是使用strcat 但由于 Win32 现在处理 Unicode 字符串又名LPWSTR 我想不出办法strcat来处理这个有这个功能吗还是我应该自己写 ls
从分页 URL 中删除“页面”

我在更改 Wordpress 中的分页 URL 时遇到问题我知道这个问题的通用解决方案是更改 WordPress 核心文件但我只需要针对一个类别使用此解决方案也许只有一个类别可以通过 htaccess 来完成现在有这样的网址 htt
未找到架构 x86_64 的符号 - Cmake - Mac sierra

最近我开始了一个 C 的新项目问题是当我尝试编译它时出现链接错误我今天花了一整天的时间尝试调试它但我并没有真正在任何地方找到好的解决方案如果有人能帮忙那就太好了我使用的是 Mac Sierra parsing methylat
如何通过 EF Model First 数据库架构升级避免数据丢失？

这是一个很长的问题但如果我能就此得到一些好的建议我将非常非常感激简而言之我正在寻找一种对 MS SQL 数据库模式进行版本升级的好方法该方法还要求将数据从已删除的表移至新表我认为 Stack Overflow 是解决这个问题最合
如何在 Emacs 中输入希腊字符

This http xahlee info emacs emacs emacs n unicode htmlpage 表明希腊字母可以通过使用插入到 Emacs 中M i 然而 Debian Squeeze 变体中的 Emacs 23 2
如何将BottomAppBar + FAB与BottomNavigationView结合起来

我想使用FloatingActionButton 以及它锚定在 BottomNavigationView 顶部的 BottomAppBar 上时的行为我想出了一个相当 hacky 的技巧来放置BottomNavigationView在 B
如何证明这个大o符号的说法？

如何证明这一点 4n O 8n 8n O 4n 那么有哪些C and n0两种情况的值 EDIT 我试图澄清我更多 1 For a proof see formal definition of Big O http en wikipedia
分布式tensorflow在运行server.__init__后独占GPU

我有两台计算机每台计算机都有两个 GPU 我试图从分布式张量流开始但对它是如何工作的感到非常困惑在计算机 A 上我想要一个ps任务我的印象是这应该在CPU上进行和两个worker任务每个 GPU 一个我想在计算机 B 上有两个

分布式tensorflow在运行server.__init__后独占GPU

分布式tensorflow在运行server.__init__后独占GPU 的相关文章

随机推荐

热门标签

分布式tensorflow在运行server.init后独占GPU

分布式tensorflow在运行server.init后独占GPU 的相关文章