Python 多处理：全局对象未正确复制到子级

2024-05-25

前几天我回答了一个关于SO的问题 https://stackoverflow.com/q/67047533/1925388关于并行读取 tar 文件。

这是问题的要点：

import bz2
import tarfile
from multiprocessing import Pool

tr = tarfile.open('data.tar')

def clean_file(tar_file_entry):
    if '.bz2' not in str(tar_file_entry):
        return
    with tr.extractfile(tar_file_entry) as bz2_file:
        with bz2.open(bz2_file, "rt") as bzinput:
            # Reading bz2 file
            ....
            .... 


def process_serial():
    members = tr.getmembers()
    processed_files = []
    for i, member in enumerate(members):
        processed_files.append(clean_file(member))
        print(f'done {i}/{len(members)}')


def process_parallel():
    members = tr.getmembers()
    with Pool() as pool:
        processed_files = pool.map(clean_file, members)
        print(processed_files)


def main():
    process_serial() # No error
    process_parallel() # Error


if __name__ == '__main__':
    main()

我们只需在子进程中而不是在父进程中打开 tar 文件，就可以使错误消失，如中所述答案 https://stackoverflow.com/a/67080067/1925388.

我无法理解为什么这有效。

即使我们在父进程中打开 tarfile，子进程也会得到一个新的副本。那么为什么在子进程中打开 tarfile 会显式地产生任何影响呢？

这是否意味着在第一种情况下，子进程以某种方式改变了公共 tarfile 对象并由于并发写入而导致内存损坏？

FWIW，评论中的答案open在类 UNIX 系统上关于文件句柄号实际上是不正确的。

If multiprocessing uses fork()（它在 Linux 和类似的情况下执行此操作，尽管我读到在 macOS 上分叉存在问题），文件句柄和其他所有内容都愉快地复制到子进程（“愉快”我的意思是在许多边缘情况下它很复杂，例如分叉线程，但对于文件句柄仍然可以正常工作）。

以下对我来说效果很好：

import multiprocessing

this = open(__file__, 'r')


def read_file():
    print(len(this.read()))


def main():
    process = multiprocessing.Process(target=read_file)
    process.start()
    process.join()


if __name__ == '__main__':
    main()

问题很可能是tarfile在读取时具有内部结构和/或缓冲，您也可以通过尝试同时查找和读取同一存档的不同部分来简单地遇到冲突。也就是说，我推测在这种情况下使用没有任何同步的线程池可能会遇到完全相同的问题。

Edit：澄清一下，从 Tar 存档中提取文件是likely（我没有检查具体细节）如下：（1）寻找封装部分（文件）的偏移量，（2）读取封装文件的块，将块写入目标文件（或管道），或 w/e), (3) 重复 (2)，直到提取整个文件。

通过尝试使用相同文件句柄从并行进程中以非同步方式执行此操作，可能会导致这些步骤的混合，即开始处理文件#2 将远离文件#1，而我们处于中间读取文件 #1 等

Edit2回答下面的评论：内存表示是为子进程重新分叉的，这是真的；但内核端管理的资源（例如文件句柄和内核缓冲区）是共享的。

为了显示：

import multiprocessing

this = open(__file__, 'rb')


def read_file(worker):
    print(worker, this.read(80))


def main():
    processes = []

    for number in (1, 2):
        processes.append(
            multiprocessing.Process(target=read_file, args=(number,)))

    for process in processes:
        process.start()
    for process in processes:
        process.join()


if __name__ == '__main__':
    main()

在 Linux 上运行这个我得到：

$ python3.8 test.py 
1 b"import multiprocessing\n\nthis = open(__file__, 'rb')\n\n\ndef read_file(worker):\n   "
2 b''

如果查找和读取是独立的，则两个进程将打印相同的结果，但事实并非如此。由于这是一个小文件，并且 Python 选择缓冲少量数据（8 KiB），因此第一个进程会读取到 EOF，而第二个进程则没有剩余数据可供读取（当然，除非它回溯）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 多处理：全局对象未正确复制到子级的相关文章

如何防止用户控件表单在 C# 中处理键盘输入（箭头键）

我的用户控件包含其他可以选择的控件我想实现使用箭头键导航子控件的方法问题是家长控制拦截箭头键并使用它来滚动其视图什么是我想避免的事情我想自己解决控制内容的导航问题我如何控制由箭头键引起的标准行为提前致谢 MTH 这通常是通过重写
如何在发布期间复制未版本化的测试资源：执行？

我的问题与 Maven 在发布时不会复制未跟踪的资源 https stackoverflow com questions 10378708 maven doesnt copy untracked resources while releas
如何确定所有角度2分量都已渲染？

当所有 Angular2 组件完成渲染时是否会触发一个角度事件 For jQuery 我们可以用 function 然而对于 Angular2 当domready事件被触发 html 只包含角度组件标签每个组件完成渲染后 domrea
如何在执行新操作时取消先前操作的执行？

我有一个动作创建器它会进行昂贵的计算并在每次用户输入内容时调度一个动作基本上是实时更新但是如果用户输入多个内容我不希望之前昂贵的计算完全运行理想情况下我希望能够取消执行先前的计算并只执行当前的计算没有内置功能可以取消Pro
使用.NET技术录制屏幕视频[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有一种方法可以使用 NET 技术来录制屏幕无论是桌面还是窗口我的目标是免费的我喜欢小型低
如何从日期中查找该月的最后一天？

如何在 PHP 中获取该月的最后一天 Given a date 2009 11 23 我要2009 11 30 并给出 a date 2009 12 23 我要2009年12月31日 t返回给定日期所在月份的天数请参阅的文档date ht
Redis如何存储关联数组？设置、散列还是列表？

我对 Redis 的所有可用存储选项有点困惑我想做一些简单的事情并且不想过度设计它我正在与phpredis and Redis v2 8 6 我有一个需要存储的简单关联数组我还需要能够通过其键检索项目并循环遍历所有项目 a arra
PHPUnit 和 Zend Framework assertRedirectTo() 问题

我在创建的测试中遇到了 assertRedirectTo 问题下面是我使用的代码 public function testLoggedInIndexAction this gt dispatch this gt assertControl
从超立方体图像中获取文本的确切位置

使用 tesseract 中的 GetHOCRText 0 方法我能够检索 html 中的文本并在 webview 中呈现 html 时我能够获取文本但图像中文本的位置与输出不同任何想法都非常有帮助 tesseract gt Se
CSS溢出文本显示在几行中，没有断字

我有一些长文本显示在 div 中该 div 具有固定的宽度和高度我希望文本显示在几行上作为 div 高度并且句子单词不会中断一行中的单词前缀和下一行中的继续此外我想在末尾添加省略号最后一句话 CSS white space n
节拍匹配算法

我最近开始尝试创建一个移动应用程序 iOS Android 它将自动击败比赛 http en wikipedia org wiki Beatmatching http en wikipedia org wiki Beatmatching 两
Spring Boot @ConfigurationProperties 不从环境中检索属性

我正在使用 Spring Boot 1 2 1 并尝试创建一个 ConfigurationProperties带有验证的bean 如下所示 package com sampleapp import java net URL import j
循环内的异步性

我正在使用 jQuery getJSON 用于从一组实用程序的给定 URL 检索数据的 API 我真的很想找到一种为每个实用程序重用代码完全相同的方法由于循环的执行与 ajax 调用无关因此我无法找到保留循环值的方法我知道这个描述
用于验证目的的动态查找方法

我正在使用 Ruby on Rails 3 0 7 我想在运行时查找一些记录以进行验证但为该查找方法传递设置一个值也就是说在我的班级中我有以下内容 class Group lt lt ActiveRecord Base valid
rspec 中的模拟方法链

有一系列方法可以获得user目的我试图模拟以下内容以返回user in my Factory Girl current user AuthorizeApiRequest call request headers result 我可以模拟该
使用 xpath 和 vtd-xml 以字符串形式获取元素的子节点和文本

这是我的 XML 的一部分
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50
强制 Listview 不重复使用视图（复选框）

我做了一个定制Listview 没有覆盖getView 方法 Listview 中的每个项目都具有以下布局联系布局 xml

随机推荐

Mongodb聚合管道大小和速度问题

我正在尝试使用 mongodb 聚合查询来连接 lookup 两个集合然后对连接数组中的所有唯一值进行不同计数注意我不一定知道metaDataMap 数组中有哪些字段键我不想计算或包含地图中可能存在或不存在的字段这就是聚合查询看
有什么理由不在Python中混合使用多处理和线程模块

我正在考虑使用Python来实现一个需要大量多线程的程序另一个要求是它将在桌面上运行因此拥有许多进程将使应用程序显得混乱且难以杀死在任务管理器中因此我正在考虑使用线程和多处理模块来减少进程数量据我了解 GIL 仅适用于单个进程
在所有方法调用上允许类型见证有什么意义？

假设我们有两种方法如下所示 public static
在仅具有两种类型值的列上创建索引有多有效

我在列上创建了一个索引该列只有两个可能的值 Y 和 N 两个值的数据类型相同假设列名称是指示符我写了一个选择语句例如 SELECT INDICATOR FROM TEMP TABLE ORDER BY INDICATOR 当我在 S
更新 OSX 命令行工具 6.3 后缺少 C++ 标头 <__debug>

从 App Store 更新到 Command Line Tools 6 3 后程序包括
使用枚举变量切换字符串

我有一个具有不同值的枚举并且想要切换字符串变量现在我在尝试将枚举值转换为字符串可以用作大小写常量时遇到了困难我最好的尝试是将枚举转换为字符串数组但开关似乎不接受数组值作为大小写常量 IntelliJ 说需要恒定的表达 Enu
帮助程序中的 Rails Form 块 - 如何包含“防止伪造”

我正在尝试为我的液体主题语言构建一个表单块我的方法基于这个答案 https stackoverflow com questions 15189669 can the liquid ruby template engine deal wit
“docker-compose run”命令后卷更改不持久（Django 的collectstatic）

我有一个使用 Docker Compose 创建的 Django 环境我正在尝试使用manage py collectstatic将我网站的静态文件复制到容器中的目录中该目录 usr src app static 也是一个 Docker
一起使用 String 和 int 时的 System.out.println 行为 [重复]

这个问题在这里已经有答案了考虑下面的代码片段 public class Student public static void main String args int a 3 int b 4 System out println a b
特征对象和特征的直接实现者的特征实现

我有一个主要封装向量的结构 struct Group
在 PHP 中设置 X-Frame-Options

如何在我的 PHP 代码中设置 X Frame Options 以便它出现在我的服务器的所有网页中基本上我试图避免 iframe 加载我的网络应用程序在您的 php 文件中使用以下内容该文件将响应输出到客户端 header X Fr
如何使用和理解wso2 git仓库？

我刚刚开始对wso2感兴趣我正在寻找移动设备管理解决方案所以我测试了 wso2 EMM 但我发现了一些限制我想知道是否可以自己实现我的问题是我完全迷失在 wso2 git 存储库中有没有我错过的指导书或逻辑如果有人帮助我解决这个
检查数组元素的大小是否相同

有没有最好最有效的方法来检查数组元素的大小是否相同 1 2 3 4 5 gt false 1 2 3 4 5 6 gt true 我有什么 def element of same size arr arr map size uniq si
如何获取 C# PriorityQueue 元素的优先级

我正在初始化一个存储 XY 坐标的优先级队列根据距原点的欧几里得距离确定优先级我创建了一个自定义Comparer这使得它作为最大堆运行 PriorityQueue
无法在android中使用retrofit发出@Post请求

我正在学习如何在 android 中使用改造但是每当我尝试从互联网检索数据时我的应用程序不会返回任何内容我的响应没有成功我不知道如何修复当前我正在尝试发布的错误并使用此 URL 检索数据https jsonplaceholder ty
为什么名称为“下划线”或“lodash”？

为什么这些库以命名其背后是否有某种意义或者原因是只是因为我们可以据我所知下划线 and lodash做很多类似的事情此外这两个名字都指向甚至它们的变量名也是那么是否存在某种关系这些库的工作或者它只是一个名字 Lodas
PHP 会话不会在每个请求上延长 Cookie 过期时间

session start 是否应该通过 session gc maxlifetime 变量来延长会话 ID cookie 的寿命我的 session gc maxlifetime 是 24 分钟每个会话仅存活 24 分钟无论网站上有
Django - 从时间戳获取不同的日期

我正在尝试按日期过滤用户但直到我可以找到数据库中用户的第一个和最后一个日期为止虽然我可以让我的脚本稍后过滤掉重复项但我想从一开始就使用 Django 来完成此操作distinct因为它显着减少我试过 User objects val
AspectJ 与 weblogic

我正在尝试使用 LTW 在 Weblogic 上运行 AspectJ 我的切入点是针对公共构造函数和方法的建议是针对 Before AfterReturning 和 AfterThrowing 的当我访问简单的 Hello World
Python 多处理：全局对象未正确复制到子级

前几天我回答了一个关于SO的问题 https stackoverflow com q 67047533 1925388关于并行读取 tar 文件这是问题的要点 import bz2 import tarfile from multipro

Python 多处理：全局对象未正确复制到子级

Python 多处理：全局对象未正确复制到子级 的相关文章

随机推荐

热门标签

Python 多处理：全局对象未正确复制到子级的相关文章