为什么 `Pool.map()` 多处理中的内存消耗急剧增加？

2024-05-26

我正在对 pandas 数据帧进行多重处理，方法是将其拆分为多个数据帧，这些数据帧存储为列表。并且，使用Pool.map()我将数据帧传递给定义的函数。我的输入文件约为“300 mb”，因此小数据帧大约为“75 mb”。但是，当多处理运行时，内存消耗会增加 7 GB，每个本地进程大约消耗 1 GB 内存。 2 GB 内存。为什么会发生这种情况？

def main():

    my_df = pd.read_table("my_file.txt", sep="\t")
    my_df = my_df.groupby('someCol')

    my_df_list = []
    for colID, colData in my_df:
        my_df_list.append(colData)

    # now, multiprocess each small dataframe individually    
    p = Pool(3)
    result = p.map(process_df, my_df_list)

    p.close()
    p.join()

    print('Global maximum memory usage: %.2f (mb)' % current_mem_usage())

    result_merged = pd.concat(result)

    # write merged data to file


def process_df(my_df):
    my_new_df = do something with "my_df"

    print('\tWorker maximum memory usage: %.2f (mb)' % (current_mem_usage()))

    del my_df
    return my_new_df


#to monitor memory usage
def current_mem_usage():
    return resource.getrusage(resource.RUSAGE_SELF).ru_maxrss / 1024.

我的结果很好，但每个 75 MB 文件的内存消耗相当高。为什么这样？是不是漏水了？可能的补救措施有哪些？

输出内存使用情况：

Worker maximum memory usage: 2182.84 (mb)
Worker maximum memory usage: 2182.84 (mb)
Worker maximum memory usage: 2837.69 (mb)
Worker maximum memory usage: 2849.84 (mb)
Global maximum memory usage: 3106.00 (mb)

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

multiprocessing

ThreadPool

pythonmultiprocessing

为什么 `Pool.map()` 多处理中的内存消耗急剧增加？的相关文章

SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

捆绑 pathsForResourcesOfType:inDirectory:

在我的应用程序中我有很多图片分为几个类别以下是项目内和我的硬盘上的应用程序树 ApplicationName Resources Thumbs Images Buttons Default png 在拇指文件夹中我有很多 png 文
Azure 表存储分区键

两个有些相关的问题 1 是否有办法获取表实体所在服务器的ID 2 使用 GUID 能否为我提供最佳的分区键分布如果没有那又会怎样呢几周来我们一直在为表存储性能而苦苦挣扎简而言之这确实很糟糕但我们很早就意识到使用随机分区键会将实体
添加鼠标事件到svg ，检测网格悬停

我有一个有点复杂的问题我正在尝试通过 svg 渲染网格然后将事件侦听器添加到网格中目前我正在通过渲染网格
Smarty 3 如何与 Zend Framework 2 一起使用？

我很久以前就使用过 PHP5 目前正在尝试刷新我的知识并通过 Zend Framework 2 和 Smarty 3 的知识来增强它以实现一个可能的项目我目前正在尝试弄清楚如何使用 Smarty 3 作为 Zend Framework
如何在PropertyGrid中自定义绘制GridItem？

我想以与所有者在 ListView 详细信息和其他控件中绘制项目类似的方式在 PropertyGrid 中绘制属性值如果将属性声明为 Color 类型则其值将使用字符串描述旁边的颜色样本来绘制如果属性是图像类型则在字符串描述旁边绘
SQL 执行计划是基于架构还是数据，或者两者兼而有之？

我希望这个问题不太明显我已经找到了很多关于解释执行计划的好信息但有一个问题我还没有找到答案该计划更具体地说是相对 CPU 成本仅基于架构还是数据库中当前的实际数据我尝试对我的产品数据库中需要索引的位置进行一些分析但正在使用我
识别左侧由 delta 链接的簇，右侧由不同 delta 链接的簇

考虑排序后的数组a a np array 0 2 3 4 5 10 11 11 14 19 20 20 如果我指定了左增量和右增量 delta left delta right 1 1 这就是我期望的集群分配方式 a 0 2 3 4 5 1
如果满足条件，Angular JS 如何添加 CSS 类

我正在创建一个截断指令如果字符超过 10 我就会截断文本字符串然后它将显示我的目标是编写一个条件如果字符少于 10 个则删除如果有人对我如何实现此目标有任何想法我会坚持这一点并接受建议这是我的代码 var app angul
从 HTML 文件输入中删除“所有文件”选项

我在用
如何让 JQuery UI 自动完成与项目 id 配合使用

我在这里看到了这篇文章带有项目和 ID 的 jQuery UI 自动完成 https stackoverflow com questions 4815330 jquery autocomplete with item and id但我无法
Apache Beam：如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”

我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除但是我创建后遇到错误KV
替换 XSLT 中的特殊字符

我想从 XSLT 中的字符串中删除字母以外的字符例如
如何在浏览时检查客户端是否安装了 SQLNCLI10 提供程序？

我有一个 C 网站允许客户端从其 PC 直接连接到远程 SQL Server 数据库通过使用第 3 方 ActiveX 控件绕过 Web 服务器我最初使用的是SQLOLEDB提供商并且运行良好客户端位于内部网络中使用 Window
创建由线连接的 CSS3 圆圈

我必须在 CSS 中实现以下圆形和线条组合并且我正在寻找有关如何有效实现此功能的指示圆圈和线条应如下所示我能够这样实现圆圈 span step background ccc border radius 0 8em moz border
https登录的安全性？

我正在编写一个 Apple iOS 应用程序用于登录帐户并获取一些余额它使用纯 html 链接进行登录用户名和密码在运行时动态加载到登录链接我使用 Wireshark 嗅探了流量但在发送的任何包中都找不到用户名或密码我猜 htt
直接从表中选择和视图之间的区别

直接从表中选择数据或从视图中选择数据有什么区别每一种的最佳用途是什么根据微软的说法如果你使用的话会有性能优势indexedSQL Server 2000 2005 2008 中的视图索引视图可以通过以下方式提高查询性能1 可以预先计
onLocationChanged 回调是在哪个线程上进行的？主 UI 线程？

当在我的应用程序中进行此回调时我有相当多的工作要做通过 ORM 库和一些基于距离的计算读取和写入 SQL 数据库当然我担心不会阻塞主 UI 线程因此我一直在尝试未成功找出这是否是进行回调的线程如果是我打算在回调发生时触发的
Python - 函数无法在新线程中运行

我正试图杀死notepad exe使用此函数在 Windows 上进行处理 import thread wmi os print CMD Kill command called def kill c wmi WMI Commands not
如何在控制台程序中获取鼠标位置？

如何在 Windows 控制台程序中用 C 获取鼠标单击位置点击时返回鼠标位置的变量我想用简单的文本命令绘制一个菜单这样当有人点击时游戏就会注册它并知道位置我知道如何做我需要做的一切除了单击时获取鼠标位置您需要使用 Conso
为什么 `Pool.map()` 多处理中的内存消耗急剧增加？

我正在对 pandas 数据帧进行多重处理方法是将其拆分为多个数据帧这些数据帧存储为列表并且使用Pool map 我将数据帧传递给定义的函数我的输入文件约为 300 mb 因此小数据帧大约为 75 mb 但是当多处理运行时内存

为什么 `Pool.map()` 多处理中的内存消耗急剧增加？

为什么 `Pool.map()` 多处理中的内存消耗急剧增加？ 的相关文章

随机推荐

热门标签

为什么 `Pool.map()` 多处理中的内存消耗急剧增加？的相关文章