使用变量设置 Dask Worker

2023-12-03

我想在工作人员加载时分发一个更大的对象（或从磁盘加载）并将其放入全局变量（例如calib_data）。这对 Dask 工作人员有用吗？

好像是客户端方法注册工人回调在这种情况下可以做你想做的事。你仍然需要某处放置你的变量，因为在 python 中没有真正的全局范围。例如，某个地方可以是导入模块的任何属性，然后任何工作人员都可以访问该属性。您还可以将其添加为工作实例本身的属性，但我认为没有明显的理由要这样做。

一种有效的方法是劫持随机选择的内置模块；但我并不特别推荐这个（见下文）

def attach_var(name, value):
    import re
    re.__setattr__(name, value)

client.run(attach_var, 'x', 1)

def use_var():
    # any function running on a worker can do this, via delayed or
    # whatever method you pass with
    import re
    return re.x

client.run(use_var)

不过，在继续之前，您是否已经考虑过delayed(calib_data) or scatter，这会将您的变量复制到需要的位置，例如，

futures = client.scatter(calib_data, broadcast=True)

或者确实使用普通的方式将数据加载到工作人员中delayed语义学

dcalib = dask.delayed(load_calib_data)()
work = dask.delayed(process_stuff)(dataset1, dcalib)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Dask

使用变量设置 Dask Worker 的相关文章

如何从 Dask-Yarn 作业中捕获工人的日志？

我尝试过使用以下内容 config dask distributed yaml and config dask yarn yaml logging file config path to config ini or logging vers
dask 持久行为不一致

如果我注释掉这一行我发现 dask 的奇怪行为仍然存在 client Client memory limit 20GB n workers 1 Connect to distributed cluster and override def
在“from_delayed”JSON 文件中发现 DASK 元数据不匹配

我刚刚开始我的冒险DASK我正在学习 json 格式的示例数据集我知道对于初学者来说这不是世界上最简单的数据格式我有一个数据集json格式我通过加载数据dd read json到数据框一切顺利问题发生在例如 compute or
Dask 分布式工作线程在运行许多任务时总是会泄漏内存

有哪些策略可以解决或调试这个问题 distribution worker 警告内存使用率很高但工作线程没有数据可存储到磁盘也许其他进程正在泄漏内存进程内存 26 17 GB 工作内存限制 32 66 GB 基本上我只是在一台机器上
气流+芹菜或dask。为了什么，什么时候？

我阅读了 Airflow 官方文档下列 https airflow apache org configuration html scaling out with celery 这究竟意味着什么作者所说的横向扩展是什么意思那是 when
使用 Dask 的新 to_sql 来提高效率（内存/速度）或替代方案将数据从 dask 数据帧获取到 SQL Server 表

我的最终目标是结合使用 SQL Python 来处理一个项目该项目的数据量太大以至于 pandas 无法处理至少在我的机器上所以我已经和dask to 从多个源读取数据主要是 SQL Server 表视图将数据操作合并到一
使用 dask 加载大型数据集

我处于具有集群紧密耦合互连和支持 Lustre 文件系统的 HPC 环境中我们一直在探索如何利用 Dask 不仅提供计算而且充当分布式缓存来加速我们的工作流程我们专有的数据格式是 n 维且规则的并且我们编写了一个惰性读取器以传递到
Dask 中的二维布尔索引

我想使用 Dask 进行二维索引这是该任务的示例 array1 xr DataArray 1 3 4 7 6 4 15 2 chunk 2 array2 xr DataArray 1 3 4 9 1 4 3 2 chunk 2 array
当 SageMath 代码在 python 中运行时，使用 Dask 会抛出 ImportError

这个问题和我的很相似先前的问题 https stackoverflow com questions 68958031 using dask throws importerror when run inside sagemath并受到其中一条
Dask 数据帧并行任务

我想从数据帧创建功能附加列并且我有以下许多功能的结构遵循本文档https docs dask org en stable delayed best practices html https docs dask org en stabl
如何从 url 列表创建 Dask DataFrame？

我有一个 URL 列表我很想将它们读取到 dask 数据框中立刻但看起来像read csv不能使用星号http 有什么办法可以实现这一点吗这是一个例子 link http web mta info developers data d
使用 dask 合并大型数据集

我有两个数据集一个约为 45GB 包含 1 年的日常交易第二个数据集为 3 6GB 包含客户 ID 和详细信息我想将两者合并到一个公共列上以创建一个数据集这超出了服务器的内存因为每个客户可能有多个交易我正在开发一个具有 16 个
dask 数据帧的 iloc 相当于什么？

我遇到一种情况我需要按位置索引 dask 数据帧我看到没有 iloc方法可用还有其他选择吗或者我是否需要使用基于标签的索引例如我想 import dask dataframe as dd import numpy as np i
python dask DataFrame，支持（可并行化）行应用吗？

我最近发现dask http dask pydata org en latest index html旨在成为一个易于使用的 python 并行处理模块对我来说最大的卖点是它可以与熊猫一起使用在阅读了其手册页后我找不到一种方法来完成这
dask 可以用于在核心之外进行分组和重新编码吗？

我有 8GB csv 文件和 8GB RAM 每个文件每行有两个字符串格式如下 a c c a f g a c c a b f c a 对于较小的文件我删除重复项计算前两列中每行的副本数然后将字符串重新编码为整数如下 https s
Dask“没有名为 xxxx 的模块”错误

使用dask分布式我尝试提交一个位于另一个名为worker py的文件中的函数在工人中我有以下错误没有名为 worker 的模块但是我无法弄清楚我在这里做错了什么这是我的代码示例 import worker def run self
将字符串转换为字典，然后访问键：值？？？如何访问 Python 中的数据？

我在访问字典内的数据时遇到问题系统 Macbook 2012Python Python 3 5 1 Continuum Analytics Inc 我正在与一个dask dataframe http dask pydata org en
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
pandas DataFrame 中行的高效成对比较

我目前正在处理一个较小的数据集大约 900 万行不幸的是大多数条目都是字符串即使强制类别框架在内存中也只有几 GB 我想做的是将每一行与其他行进行比较并对内容进行直接比较例如给定 A B C D 0 cat blue old
初始化 dask 分布式工作线程的状态

我正在尝试做类似的事情 resource MyResource def fn x something dosemthing x resource return something client Client results client m

随机推荐

滑动ListView时item变大

我想在 android 中实现一个列表效果如 Ultravisi Iphone 应用程序中显示的效果类似的效果可以在 Android 中的 2015 年米兰世博会应用程序上查看我希望向下滑动 ListView 时顶部项目变大我不知道
可变引用上的自定义迭代器中的生命周期参数问题

我想实现一个如下所示的自定义迭代器但无法解决引用问题 use itertools Product use std ops Range struct Iter2DMut lt a T a gt data a mut T shape usiz
从另一个数组中过滤掉一个数组[重复]

这个问题在这里已经有答案了所以我有 2 个对象数组看起来像这样 this balanceCodes ID 1 StringValue dummy ID 2 StringValue data this allCodes ID 1 Stri
为什么 go.Scatter 打印额外的行，而 px.line 却没有？

这是我的 graph objects 代码 go Figure go Scatter x continent df date y continent df new cases smoothed 而我的情节表达代码是这样的 px line c
spring jdbc hikari 连接池 - 不断登录和注销数据库

我正在使用 spring boot data jpa 来连接到 Oracle 数据库 Spring使用HikariCP对于 JDBC 连接默认情况下创建大小为10的固定连接池问题是在 Oracle 数据库日志中它显示我的应用程序不断
将 inputRichText 绑定到 Bean

我试图将 xp inputRichText 绑定到 bean ChatBean 但是当代码尝试将字段更新到 bean 时出现此验证错误 java lang IllegalArgumentException argument type mis
ipyparallel 异常：“您已尝试连接到 IPython 集群，但找不到控制器”

我刚刚开始使用 ipyparallel 我正在使用 VS2017 并将其导入为 import ipyparallel as ipp 然后尝试使用以下命令启动它 def main rc ipp Client if name main main
从请求对象/表单集合获取数据时，对象引用未设置为对象的实例

我正在尝试使用 MVC Ajax 实现一个简单的添加操作我的代码如下 Public Class Model public int number1 get set public int number2 get set HttpPost pu
使用querySelectorAll更改多个元素的样式属性

我有以下函数触发时将使 DIV 变得半透明 function changeOpacity el var elem document getElementById el elem style transition opacity 0 5s
用于启动应用程序的Appium-Activity不存在或无法启动！确保它存在并且是可启动的活动

我正在尝试使用 appium 运行在 eclipse 上创建的测试文件当我在连接到系统的真实 Android 设备上执行测试时出现以下错误运行命令时遇到内部错误错误启动应用程序时发生错误原始错误用于启动应用程序的 Activi
从文档中检索单个属性

今天是个好日子假设我们有一个集合和一个文档如下所示 test doc ID 123 a x y 2000 z 1000 x var y 3500 z
如何使用 Swift 调试 SceneKit 中的自定义几何体

我正在尝试学习如何在 SceneKit 中创建自定义几何体但是我尝试制作一个三角形但它没有显示任何内容我不知道如何调试这个有没有办法判断三角形是否有效我只是不知道从哪里开始作为参考相关的游乐场代码如下请注意它是针对 Sw
代码中的 WCF 跟踪不遵循 MessageLogging 设置

我需要在我的应用程序中使用 WCF 跟踪但需要尽可能通过代码进行控制建议我在 app config 文件中安装以下部分
无法从 Angular ui-view 内部访问 JavaScript

我有一个带有 Angular ui 视图的主模板 index html 在这个主模板中我导入了一堆 Javascript 文件我希望这些文件可用于将在 ui view 中加载的 html 模板内的内容但 JS 函数似乎无法访问 sam
React.Component 和 Component 之间有什么区别？

我见过两种访问方式Component import React from react class Foo extends React Component and import React Component from react class
在页面加载时动画滚动到 ID

我正在尝试在页面加载时将滚动动画设置为特定 ID 我做了很多研究并发现了这一点 html body animate scrollTop title1 height 1000 但这似乎是从ID开始并动画到页面顶部 HTML 位于页面的中间很
JDialog 允许用户仅更改对话框的宽度

有谁知道是否可以限制用户调整 JDialog 大小的方式我知道我可以调用方法 setResizible boolean 并禁用或允许用户调整 JDialog 的大小但是有没有办法限制用户更改窗口的高度但允许他更改宽度如果我创建的对话框
如何正确实现从 iOS 应用程序到 watchOS2 并发症的设置传输

我想要实现的目标如下并发症以 30 为间隔在后台更新分钟每当手表应用程序运行时并发症都会更新并且接收自己的更新数据并发症随时更新 iOS 应用程序运行并且用户更改了影响的设置观察数据例如天气观测位置的变化或显示单位第
Nodejs AWS SDK S3 生成预签名 URL

我正在使用 NodeJS AWS SDK 生成预签名的 S3 URL 该文档给出了生成预签名 URL 的示例这是我的确切代码省略了敏感信息 const AWS require aws sdk const s3 new AWS S3 AW
使用变量设置 Dask Worker

我想在工作人员加载时分发一个更大的对象或从磁盘加载并将其放入全局变量例如calib data 这对 Dask 工作人员有用吗好像是客户端方法注册工人回调在这种情况下可以做你想做的事你仍然需要某处放置你的变量因为在 python

使用变量设置 Dask Worker

使用变量设置 Dask Worker 的相关文章

随机推荐

热门标签