线程和多处理模块之间有什么区别？

2024-03-19

我正在学习如何使用threading和multiprocessingPython 中的模块可并行运行某些操作并加速我的代码。

我发现这很难（也许是因为我没有任何理论背景）来理解threading.Thread()对象和一个multiprocessing.Process() one.

另外，我并不完全清楚如何实例化一个作业队列，并让其中只有 4 个（例如）作业并行运行，而另一个则在执行之前等待资源释放。

我发现文档中的示例很清楚，但不是很详尽；一旦我尝试使事情变得复杂一点，我就会收到很多奇怪的错误（例如无法腌制的方法等等）。

那么，我什么时候应该使用threading and multiprocessing模块？

您能给我链接一些资源来解释这两个模块背后的概念以及如何正确使用它们来完成复杂的任务吗？

朱利奥·佛朗哥怎么说 https://stackoverflow.com/a/18114475对于多线程与多处理来说是正确的一般来说.

However, Python^* has an added issue: There's a Global Interpreter Lock that prevents two threads in the same process from running Python code at the same time. This means that if you have 8 cores, and change your code to use 8 threads, it won't be able to use 800% CPU and run 8x faster; it'll use the same 100% CPU and run at the same speed. (In reality, it'll run a little slower, because there's extra overhead from threading, even if you don't have any shared data, but ignore that for now.)

但也有例外。如果您的代码的繁重计算实际上并未发生在 Python 中，而是在某些具有执行正确 GIL 处理的自定义 C 代码的库中（例如 numpy 应用程序），您将从线程中获得预期的性能优势。如果繁重的计算是由您运行并等待的某个子进程完成的，情况也是如此。

更重要的是，在某些情况下这并不重要。例如，网络服务器花费大部分时间从网络读取数据包，而 GUI 应用程序花费大部分时间等待用户事件。在网络服务器或 GUI 应用程序中使用线程的原因之一是允许您执行长时间运行的“后台任务”，而无需停止主线程继续服务网络数据包或 GUI 事件。这对于 Python 线程来说效果很好。（用技术术语来说，这意味着 Python 线程为您提供并发性，即使它们不为您提供核心并行性。）

但是，如果您用纯 Python 编写 CPU 密集型程序，那么使用更多线程通常没有帮助。

使用单独的进程就没有GIL这样的问题，因为每个进程都有自己单独的GIL。当然，与任何其他语言一样，您仍然需要在线程和进程之间进行权衡 - 在进程之间共享数据比在线程之间共享数据更困难且更昂贵，运行大量进程或创建和销毁进程的成本可能会很高但 GIL 严重影响了进程的平衡，而对于 C 或 Java 来说，情况并非如此。因此，您会发现自己在 Python 中比在 C 或 Java 中更频繁地使用多处理。

与此同时，Python 的“自带电池”哲学带来了一些好消息：编写可以通过一行更改在线程和进程之间来回切换的代码非常容易。

如果您根据独立的“作业”设计代码，除了输入和输出之外，不与其他作业（或主程序）共享任何内容，则可以使用concurrent.futures http://docs.python.org/3/library/concurrent.futures.html围绕线程池编写代码的库，如下所示：

with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
    executor.submit(job, argument)
    executor.map(some_function, collection_of_independent_things)
    # ...

您甚至可以获取这些作业的结果并将其传递给进一步的作业，按执行顺序或完成顺序等待事物等；阅读有关的部分Future对象以获取详细信息。

现在，如果事实证明您的程序不断使用 100% CPU，并且添加更多线程只会使其速度变慢，那么您就会遇到 GIL 问题，因此您需要切换到进程。您所要做的就是更改第一行：

with concurrent.futures.ProcessPoolExecutor(max_workers=4) as executor:

唯一真正需要注意的是，作业的参数和返回值必须是可腌制的（并且不会花费太多时间或内存来腌制）才能跨进程使用。通常这不是问题，但有时却是问题。

但如果您的工作不能独立怎么办？如果您可以根据工作来设计代码传递消息从一个到另一个，仍然很容易。你可能需要使用threading.Thread or multiprocessing.Process而不是依赖池。你必须创建queue.Queue or multiprocessing.Queue明确对象。（还有很多其他选项——管道、套接字、带有羊群的文件……但重点是，你必须这样做某物如果执行器的自动魔法不够，则手动进行。）

但是如果您甚至不能依赖消息传递怎么办？如果您需要两项工作来改变相同的结构并查看彼此的变化怎么办？在这种情况下，您将需要进行手动同步（锁、信号量、条件等），并且如果您想使用进程，还需要显式共享内存对象来启动。这是多线程（或多处理）变得困难的时候。如果你能避免它，那就太好了；如果你不能，你将需要阅读比某人可以放入 SO 答案更多的内容。

从评论中，您想了解 Python 中线程和进程之间的区别。真的，如果您阅读朱利奥·佛朗哥的答案和我的答案以及我们所有的链接，那应该涵盖所有内容……但是摘要肯定会很有用，所以这里是：

线程默认共享数据；进程则不然。
As a consequence of (1), sending data between processes generally requires pickling and unpickling it.^**
作为（1）的另一个结果，在进程之间直接共享数据通常需要将其放入低级格式，如值、数组和ctypes types.
进程不受 GIL 的约束。
在某些平台（主要是 Windows）上，创建和销毁进程的成本要高得多。
进程有一些额外的限制，其中一些在不同平台上是不同的。看编程指南 http://docs.python.org/3/library/multiprocessing.html#multiprocessing-programming了解详情。
The threading模块不具备某些功能multiprocessing模块。（您可以使用multiprocessing.dummy要在线程之上获取大部分缺失的 API，或者您可以使用更高级别的模块，例如concurrent.futures不用担心。）

_{* It's not actually Python, the language, that has this issue, but CPython, the "standard" implementation of that language. Some other implementations don't have a GIL, like Jython.}

_{** If you're using the fork https://docs.python.org/3/library/multiprocessing.html#contexts-and-start-methods start method for multiprocessing—which you can on most non-Windows platforms—each child process gets any resources the parent had when the child was started, which can be another way to pass data to children.}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

线程和多处理模块之间有什么区别？的相关文章

使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
Spring Batch 多线程 - 如何使每个线程读取唯一的记录？

这个问题在很多论坛上都被问过很多次了但我没有看到适合我的答案我正在尝试在我的 Spring Batch 实现中实现多线程步骤有一个包含 100k 条记录的临时表想要在 10 个线程中处理它每个线程的提交间隔为 300 因此在任何时
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
asp.net core / kestrel中的线程管理

我正在解决我们已迁移到 asp net core 2 0 的 asp net 应用程序的性能可扩展性问题我们的应用程序作为应用程序服务托管在 azure 上并且在任何中等流量的情况下都很容易崩溃让我困惑的一件事是如何处理多个并发请求
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
无锁算法真的比全锁算法性能更好吗？

陈雷蒙德 http blogs msdn com b oldnewthing 一直在做一个huge http blogs msdn com b oldnewthing archive 2011 04 15 10154245 aspx ser
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
C# - OutOfMemoryException 在 JSON 文件上保存列表

我正在尝试保存压力图的流数据基本上我有一个压力矩阵定义为 double pressureMatrix new double e Data GetLength 0 e Data GetLength 1 基本上我得到了其中之一pressur
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class

随机推荐

ui内的输入组件：repeat，如何保存提交的值

我正在显示数据库中的问题列表对于每个问题我必须显示选项列表在本例中为单选按钮
AWS CloudSearch 上传 JSON：值标签不能是数组或对象

我正在运行 lambda 函数 NodeJS 将一些文档上传到 AWS Cloud Search 我不断收到以下错误 errorMessage The value of tags cannot be a JSON array or obje
如何在忽略索引对齐的情况下分配列

假设我有两个数据框x and y在 Pandas 中我想填写一列x对列进行排序的结果y 我试过这个 x foo y bar order ascending False 但这没有用我suspect因为熊猫对齐索引之间x and y 具有相
couchdb 视图使用另一个视图？

我对 couchdb 中的视图有疑问目前我有许多视图例如 view A view B view Z 对于每个视图它们包含相同范围的键但具有不同的值 IE view A key key 1 value 10 key key 2 val
作为函数输入传递的 python 字典在该函数中的作用类似于全局函数，而不是局部函数

我对下面的行为感到非常困惑情况 1 3 和 4 的表现符合我的预期但情况 2 却没有为什么情况 2 允许函数全局更改字典条目的值即使函数从未返回字典我使用函数的一个主要原因是将函数中的所有内容与代码的其余部分隔离但如果我选择在函
VBA Excel Outlook 电子邮件正文格式

我有自动发送电子邮件的 useform 我想更改电子邮件的正文其中一些将基于带有文本的单元格因此它可以是动态的有些将在代码中修复现在在运行我需要对象的错误我将感谢您的帮助我希望电子邮件正文中的每一行都是分开的 Sub send
Erlang编译器错误

我有以下代码 loop Data gt receive Key Value gt Key Value Data Key gt member Key Data 14 loop Data stop gt io format server sto
在 Snow Leopard 上安装 Mac OS X SDK 10.5

有没有一种简单的方法可以在 Snow Leopard 上安装下载 Mac OS X 10 5 SDK 我通过 Mac App Store 安装了 Xcode 4 0 如果需要的话我也可以从开发者网站下载它但我不知道它是否包含10 5 S
如何定义C结构：c-linkage和udt

我有用 C ABI 接口用 X 语言编写的 dll 我想在我的 C 程序中使用这个 C ABI 我在main cpp中写道 extern C struct Foo const char const data unsigned len str
如何在 Jenkins WEB GUI 中显示生成的 trx 文件？

我有一堆测试结果文件 trx 在目录中构建完成后TestResults 是否可以在 Jenkins 中显示这些测试结果如何我尝试了 MSTest Jenkins 插件但它只允许一个trx每个作业的文件 trx文件在每次构建后生成并以
初始化 log4j 文件时出现异常

当尝试从配置文件初始化 hibernate 时我得到 NullPointerException 根本原因如图所示 Caused by org apache commons logging LogConfigurationException
为什么Tomcat需要安装JDK？ [复制]

这个问题在这里已经有答案了据我所知 JRE是运行时 JDK是用于Java代码的开发但在生产中的 Tomcat 服务器上将无法开发 Java 应用程序所以我的问题是为什么我们不能只安装 JRE 来运行 Tomcat 为什么运行 To
Ruby on Rails 3 中的类方法 — 我完全迷失了！

背景here http www railway at 2010 03 09 named scopes are dead 在上面的链接中给出了以下示例 class lt lt self def by author author where
为什么 OpenJDK 将私有方法放入 vtable 中？

看起来开放JDK 8 http hg openjdk java net jdk8 jdk8 hotspot file 87ee5ee27509 src share vm oops klassVtable cpp l575放置非私有方法fin
如何在 Delphi 7 中的文件中保存 UTF-16（Little Endian）和字符串值？

我想将编辑框中的值和 UTF 16 Little Endian 值保存在文件中我将举一个简单的例子来更好地理解我的问题 Edit Box Value gt Good Hex value FFFEFF15410042004300 which
如何将环境变量添加到 Azure Devops 管道中

我正在为 Node 应用程序设置 Azure 管道并使用 Jest 来测试 API 和集成源代码位于 Azure DevOps 上代码部署在 Azure 门户中当我运行测试时它在管道中失败因为 env 从未在远程存储库中检查环
在 C++ 中将 HTTP 响应正文与标头分离

我目前正在为某个项目编写自己的 C HTTP 类我正在尝试找到一种方法将响应正文与标头分开因为这是我需要返回的唯一部分如果您不熟悉这里是原始 http 标头的示例 HTTP 1 1 200 OK Server nginx 0 7 6
如何对不同形状使用同一组修改器

作为我学习 SwiftUI 项目的一部分我做了一些形状旋转下面有代码我想知道如何避免每个形状使用相同的三行修饰符 func getShape shape Int i Int gt AnyView switch shape case 0
为什么当我“使用”BinaryReader 对象时我的 FileStream 对象被释放？

考虑以下函数 private int GetSomethingFromFile FileStream fs using BinaryReader br new BinaryReader fs fs Seek 0 SeekOrigin Beg
线程和多处理模块之间有什么区别？

我正在学习如何使用threading和multiprocessingPython 中的模块可并行运行某些操作并加速我的代码我发现这很难也许是因为我没有任何理论背景来理解threading Thread 对象和一个multiproces

线程和多处理模块之间有什么区别？

线程和多处理模块之间有什么区别？ 的相关文章

随机推荐

热门标签

线程和多处理模块之间有什么区别？的相关文章