Ray：如何在一个 GPU 上运行多个 Actor？

2024-05-20

我只有一个 GPU，我想在该 GPU 上运行许多 Actor。这是我使用的方法ray，下列的https://ray.readthedocs.io/en/latest/actors.html https://ray.readthedocs.io/en/latest/actors.html

首先在GPU上定义网络

class Network():
    def __init__(self, ***some args here***):
        self._graph = tf.Graph()
        os.environ['CUDA_VISIBLE_DIVICES'] = ','.join([str(i) for i in ray.get_gpu_ids()])
        with self._graph.as_default():
            with tf.device('/gpu:0'):
                # network, loss, and optimizer are defined here

        sess_config = tf.ConfigProto(allow_soft_placement=True)
        sess_config.gpu_options.allow_growth=True
        self.sess = tf.Session(graph=self._graph, config=sess_config)
        self.sess.run(tf.global_variables_initializer())
        atexit.register(self.sess.close)

        self.variables = ray.experimental.TensorFlowVariables(self.loss, self.sess)

然后定义工人阶级

@ray.remote(num_gpus=1)
class Worker(Network):
    # do something

定义学习者类别

@ray.remote(num_gpus=1)
class Learner(Network):
    # do something

训练功能

def train():
    ray.init(num_gpus=1)
    leaner = Learner.remote(...)
    workers = [Worker.remote(...) for i in range(10)]
    # do something

当我不尝试让它在 GPU 上工作时，这个过程工作得很好。也就是说，当我删除所有内容时它工作正常with tf.device('/gpu:0') and (num_gpus=1)。当我保留它们时，麻烦就出现了：似乎只有learner已创建，但没有一个workers被建造。我应该怎么做才能让它发挥作用？

当您使用装饰器定义演员类时@ray.remote(num_gpus=1)，您是说从此类创建的任何 actor 都必须在 actor 的生命周期内为其保留一个 GPU。由于您只有一个 GPU，因此您只能创建一个这样的 actor。

如果你想让多个 Actor 共享一个 GPU，那么你需要指定每个 Actor 需要少于 1 个 GPU，例如，如果你希望在 4 个 Actor 之间共享一个 GPU，那么你可以让每个 Actor 需要 1/4 GPU 的。这可以通过声明 actor 类来完成

@ray.remote(num_gpus=0.25)

此外，您需要确保每个参与者确实尊重您对其设置的限制。例如，如果你想声明一个演员@ray.remote(num_gpus=0.25)，那么您还应该确保 TensorFlow 使用最多四分之一的 GPU 内存。查看以下问题的答案如何防止 TensorFlow 分配全部 GPU 内存？ https://stackoverflow.com/questions/34199233/how-to-prevent-tensorflow-from-allocating-the-totality-of-a-gpu-memory例如。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ray：如何在一个 GPU 上运行多个 Actor？的相关文章

Tastypie 与 application/x-www-form-urlencoded

我有点难以弄清楚下一步应该做什么我正在使用 tastypie 为我的 Web 应用程序创建 API 从另一个应用程序特别是 ifbyphone com 我收到一个没有标题的 POST 如下所示 post data http myapp
使用天蓝色错误“找不到资源”进行情绪分析

我创建了一个 python 程序它接受字符串作为输入并对其执行情感分析我已经按照文档中所述创建了环境变量并重新启动了 cmd 和 Visual Studio 但仍然出现以下错误遇到异常操作返回无效状态代码未找到资源 python
无法使用 beautifulsoup 模块 python 从 HTML 检索温度值

我正在使用 BeautifulSoup4 来解析此 HTML 查看源代码 https weather com en IN weather today l 17 39 78 49 https weather com en IN weather
在 MacOSX10.6 上运行 python 服务器时 MySQLdb 错误

运行我的服务器 python manage py runserver 产生以下错误 django core exceptions ImproperlyConfigured 加载 MySQLdb 模块时出错没有名为 MySQLdb 的模块
Flask/Apache 提交按钮用于文件上传

我有一个在 apache 后面运行的 Flask 应用程序在我的 index html 页面上有一个文件上传按钮和一个提交按钮如下所示
插入多行并返回主键时 Sqlalchemy 的奇怪行为

插入多行并返回主键时我注意到一些奇怪的事情如果我在 isert 查询中添加使用参数值我会得到预期的行为但是当将值传递给游标时不会返回任何内容这可能是一个错误还是我误解了什么我的sqlachemy版本是0 9 4 下面如何重现错
代码 zip( *sorted( zip(units, error) ) ) 的作用是什么？

对于我的申请units and errors始终是数值列表我尝试用谷歌搜索每个部分的作用并找出了 zip 的第一部分它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表如下所示 uni
不使用 graphviz/web 可视化决策树

由于某些限制我无法使用 graphviz webgraphviz com 可视化决策树工作网络与另一个世界是封闭的问题是否有一些替代实用程序或一些 Python 代码用于至少非常简单的可视化可能只是决策树的 ASCII 可视化 py
如何在 sqlalchemy 中创建基于文字的查询？

我创建了一个函数来创建表达式 def test operator1 operation operator2 return literal column operator1 op operation operator2 现在当我用 test
使用 Twisted Python 的 UDP 客户端和服务器

我想创建一个服务器和客户端使用 Twisted 从网络发送和接收 UDP 数据包我已经用 Python 中的套接字编写了此代码但想利用 Twisted 的回调和线程功能然而我需要 Twisted 设计方面的帮助我想接收多种类型的
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
使用 Matplotlib、PyQt 和 Threading 进行实时绘图导致 python 崩溃

我一直在努力研究我的 Python 应用程序但找不到任何答案我有 PyQT GUI 应用程序它使用 Matplotlib 小部件 GUI 启动一个新线程来处理 mpl 小部件的绘图恐怕我现在通过从另一个线程访问 matplotlib
wxPython：更新wx.ListBox列表

我在 python 程序中有一个 wx ListBox 我不想在 wx Timer 更新时更改其中的列表我的计时器正在工作我只是不知道如何更改它显示的列表这是一个例子 http www daniweb com code snippet
安装python启动文件

我如何安装pythonstartup文件以便它在命令上运行例如python myfile py 我尝试将其安装到我的 home myuserUbuntu的目录但它说我没有足够的权限此外不同的地方交替说它应该全部大写或全部小写前面
如何在 Flask 中获取 POSTed JSON？

我正在尝试使用 Flask 构建一个简单的 API 现在我想在其中读取一些 POSTed JSON 我使用 Postman Chrome 扩展进行 POST 我 POST 的 JSON 很简单 text lalala 我尝试使用以下方法读取
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
Django：在单独的线程中使用相同的测试数据库

我正在使用具有以下数据库设置的测试数据库运行 pytests DATABASES default ENGINE django db backends postgresql psycopg2 NAME postgres USER someth
使用 Tweepy 获取推文时出错

我有一个用于获取推文的 Python 脚本在脚本中我使用该库 Tweepy 我使用有效的身份验证参数运行此脚本后一些推文存储在我的 MongoDB 中有些则被 if 语句拒绝但我仍然收到错误 requests packages u
“ModuleNotFoundError：我的 Docker 容器中没有名为的模块”

我正在尝试在 Docker 容器中运行 python 脚本但我不知道为什么 python 找不到任何 python 模块我认为它与 PYTHONPATH 环境变量有关所以我尝试将其添加到 Dockerfile 中如下所示 ENV P
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试

随机推荐

如何从 XAML 设置 WPF 用户控件属性？

我试图从 XAML 设置同一用户控件的多个实例的 fill 属性以便区分它们我在控件的 C 代码隐藏中使用依赖属性并在实例化控件时在 XAML 中引用该属性这是我尝试过的简化示例首先是用户控件的 XAML
Swift 中带圆角的 NSWindow

我想要一个圆角的窗户但我在每个角落都有一个白点 Code let effect NSVisualEffectView frame NSRect x 0 y 0 width 0 height 0 effect blendingMode be
检测 Widevine DRM HDCP 保护级别

我目前正在切换到使用 Dash Widevine DRM 的 ExoPlayer 通过测试我发现很大比例的设备没有启用 HDCP 保护由于合同协议这是一个问题我必须在允许播放之前检测到并记录它 I took inspiration
Android 4.4.2 - java.lang.RuntimeException：执行未恢复的活动停止

我在 4 4 2 设备上遇到此异常在 Android 4 3 或更低版本的设备上无法重现设置是我有一个家庭活动支持的子类ActionBarActivity 家庭活动检查布尔标志如果为真则启动启动画面活动是的理想情况下启动画面出
如果 mVC 中不存在该 url，则重定向到页面未找到页面

如果 url 不存在我需要将用户重定向到未找到页面如果用户复制网址并将其粘贴到浏览器上页面将显示找不到页面的方法在这我需要将用户重定向到页面未找到页面看看这个如何在 ASP NET MVC 中正确处理 404 https sta
如何修复应用程序在重新排序到前面和后面后转到后台

我目前设法允许用户在两个不同的活动组之间切换假设 4 个活动类别 A B 组和 X Y 组并按FLAG ACTIVITY REORDER TO FRONT标志但我注意到有一些奇怪的行为 A gt start activity X X
如何在使用 Robot Framework 时修剪或去除字符串中的空格

如何在使用 Robot Framework 时修剪或去除字符串中的空格如果我有一个字符串 Hello How are you 如何将其转换为 HelloHowareyou 去除所有空格 str strip 也有效它使用扩展变量语法 ht
单击弹出菜单时为什么导航栏出现在全屏应用程序中

我有一个全屏应用程序 MainActivity java public class MainActivity extends AppCompatActivity TargetApi Build VERSION CODES KITKAT pr
python numpy：更改 numpy 矩阵的列类型

我有一个 numpy 矩阵 X 我尝试使用以下代码更改第 1 列的数据类型 X 1 astype str print type X 0 1 但我得到了以下结果
向 OpenID 提供商请求电子邮件地址

我正在实施 OpenID 我想检索用户的电子邮件地址和有关用户的其他信息我正在这样做 var fetch new FetchRequest fetch AddAttribute new AttributeRequest WellKnown
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
访问 XAML 中的静态字段

如何在 xaml 中引用类的静态属性换句话说我想做这样的事情 Class BaseThingy public static readonly Style BaseStyle
使用从两列计算出的键对 CSV 进行排序，获取前 n 个最大值

这里是 Python 业余爱好者假设这里我有一个示例 csv 文件的片段 Country Year GDP Population Country1 2002 44545 24352 Country2 2004 14325 75677 Co
RSACryptoServiceProvider 使用自己的公钥和私钥进行加密和解密

据我所知对于非对称加密您可以使用公钥加密明文并使用私钥解密所以我尝试了以下方法 static void Main string args RSACryptoServiceProvider rsa new RSACryptoServic
如何在Durandal路由器中使用splat参数？

我正在看的文章是杜兰达尔路由器 http durandaljs com documentation Router html Under mapAuto 它说我们可以在 url 中传递 splat 参数 customers 1 和activa
Java Try Catch Final 没有 Catch 的情况下会阻塞

我正在审查一些新代码该程序只有一个 try 和一个 finally 块既然排除了 catch 块那么如果 try 块遇到异常或任何可抛出的内容它如何工作它直接进入finally块吗如果 try 块中的任何代码可以引发已检查异常
媒体的 Google Cloud Storage 签名网址

我已经建立了一个视频网站为用户提供 m3u8 和关联的 ts 文件我不希望媒体文件免费可用所以我所做的是当用户在网站上时在 mysql 中使用他们的 IP 和令牌创建一个会话当他们请求特定媒体子域 mp4 domain com
如何在 React 中测试表单提交？

我有以下 React 组件 export default class SignUpForm extends React Component doSignupForm event Some API call render return div
如何处理并不总是返回承诺的函数？

处理函数并不总是返回 Promise 的情况的最佳方法是什么我的实际代码太复杂无法解释但问题的本质归结为检查条件根据它我要么返回一个局部变量要么需要发送一个 ajax 请求像这样的事情 function example val
Ray：如何在一个 GPU 上运行多个 Actor？

我只有一个 GPU 我想在该 GPU 上运行许多 Actor 这是我使用的方法ray 下列的https ray readthedocs io en latest actors html https ray readthedocs io en

Ray：如何在一个 GPU 上运行多个 Actor？

Ray：如何在一个 GPU 上运行多个 Actor？ 的相关文章

随机推荐

热门标签

Ray：如何在一个 GPU 上运行多个 Actor？的相关文章