Python 多线程在 IO 任务中没有任何好处？

2024-02-27

我正在尝试用 python 读取数千小时的 wav 文件并获取它们的持续时间。这本质上需要打开 wav 文件，获取帧数并考虑采样率。下面是代码：

def wav_duration(file_name):
    wv = wave.open(file_name, 'r')
    nframes = wv.getnframes()
    samp_rate = wv.getframerate()
    duration = nframes / samp_rate
    wv.close()
    return duration


def build_datum(wav_file):
    key = "/".join(wav_file.split('/')[-3:])[:-4]
    try:
        datum = {"wav_file" : wav_file,
                "labels"    : all_labels[key],
                "duration"  : wav_duration(wav_file)}

        return datum
    except KeyError:
        return "key_error"
    except:
        return "wav_error"

按顺序执行此操作将花费太长时间。我的理解是多线程应该在这里有所帮助，因为它本质上是一个 IO 任务。因此，我这样做：

all_wav_files = all_wav_files[:1000000]
data, key_errors, wav_errors = list(), list(), list()

start = time.time()

with concurrent.futures.ThreadPoolExecutor(max_workers=1) as executor:
    # submit jobs and get the mapping from futures to wav_file
    future2wav = {executor.submit(build_datum, wav_file): wav_file for wav_file in all_wav_files}
    for future in concurrent.futures.as_completed(future2wav):
        wav_file = future2wav[future]
        try:
            datum = future.result()
            if datum == "key_error":
                key_errors.append(wav_file)
            elif datum == "wav_error":
                wav_errors.append(wav_file)
            else:
                data.append(datum)
        except:
            print("Generated exception from thread processing: {}".format(wav_file))

print("Time : {}".format(time.time() - start))

然而令我沮丧的是，我得到了以下结果（以秒为单位）：

Num threads | 100k wavs | 1M wavs
1           | 4.5       | 39.5
2           | 6.8       | 54.77
10          | 9.5       | 64.14
100         | 9.07      | 68.55

这是预期的吗？这是 CPU 密集型任务吗？多重处理有帮助吗？我怎样才能加快速度？我正在从本地驱动器读取文件，并且它在 Jupyter 笔记本上运行。 Python 3.5。

EDIT：我知道 GIL。我只是假设打开和关闭文件本质上是 IO。人们的分析 https://medium.com/@bfortuner/python-multithreading-vs-multiprocessing-73072ce5600b已经表明，在 IO 情况下，使用多处理可能会适得其反。因此我决定改用多重处理。

我想现在的问题是：这个任务是IO绑定的吗？

编辑编辑：对于那些想知道的人，我认为这是 CPU 限制（核心达到 100%）。这里的教训是不要对任务做出假设并亲自检查。

按类别检查的一些事项：

Code

wave.open 的效率如何？当它可以简单地读取头信息时，它是否将整个文件加载到内存中？
为什么 max_workers 设置为 1 ？
你有没有尝试过使用cProfile https://docs.python.org/3/library/profile.html#module-cProfile甚至timeit https://docs.python.org/3.5/library/timeit.html了解代码的哪个特定部分花费了更多时间？

Hardware

重新运行您现有的设置，并进行一些硬盘活动、内存使用情况和 CPU 监控，以确认硬件不是您的限制因素。如果您看到硬盘以最大 IO 运行、内存已满或所有 CPU 核心都达到 100% - 其中之一可能已达到极限。

全局解释器锁 (GIL)

如果没有明显的硬件限制，您很可能会遇到 Python 全局解释器锁 (GIL) 的问题，如中所述这个答案 https://stackoverflow.com/a/4496918/5196274。如果您的代码仅限于在单核上运行或者运行线程中没有有效的并发性，则这种行为是可以预料到的。在这种情况下，我肯定会改为多重处理 https://docs.python.org/3/library/multiprocessing.html，首先为每个 CPU 核心创建一个进程，运行该进程，然后将硬件监控结果与上一次运行进行比较。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 多线程在 IO 任务中没有任何好处？的相关文章

matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
使用 std::packaged_task/std::exception_ptr 时，线程清理程序报告数据争用

我遇到了线程清理程序 TSan 的一些问题抱怨某些生产代码中的数据争用其中 std packaged task 通过将它们包装在 std function 中而移交给调度程序线程对于这个问题我简化了它在生产中的作用同时触发 TSa
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
无效的选择器：使用 Selenium 时不允许出现复合类名错误

我正在尝试通过 Web Whatsapp 打印聊天中的一条消息我可以通过控制台选项卡中的 Javascript 来完成此操作我就是这样做的 recived msg document getElementsByClassName XE
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

如何匹配 Typescript 中的嵌套键

我创建了一个简单的nameOf与打字稿一起使用的助手 function nameOf
如何在 Android 4 中获取 webview 比例

WebView getScale 已弃用但仍然可用获取 webview 比例的推荐方法是使用 WebViewClient onScaleChanged http developer android com reference andro
Magento：如何加载产品及其在管理中使用的所有数据

我正在尝试获取捆绑选项数据使用这个 product gt getBundleOptionsData我需要使用它因为我正在尝试以编程方式更改数据并且我想以与 admin 中使用的方式尽可能接近的方式进行操作但是当我 var dump
jQuery .prop("disabled", false) 未启用输入

在页面加载上禁用输入后我在重新启用输入时遇到问题我使用两个输入来接受两个日期但我希望在第一个输入有值之前不启用第二个输入 div div
为什么此模式生成关系 n:m

我有这个 schema yml 文件只是相关部分 SdrivingMaquina actAs Timestampable columns idmaquina type integer 8 autoincrement true notnul
仅在打开的文件中搜索和替换 (netbeans)

有人知道是否可以在 netbeans 中搜索和替换所有打开的文件吗如果有的话似乎找不到这个选项我正在使用 Netbeans 6 9 PHP IDE CTRL SHIFT H 这将打开在项目中替换您可以在其中搜索和替换所有打开的项目
如何在atom包内设置断点？

我想弄清楚为什么这个原子包https github com AtomLinter linter elixirc https github com AtomLinter linter elixirc 行为不端它的作者说我应该在包的某些函数中
Asp .Net Core 2 + SignalR (1.0.0-alpha2-27025) + /signalr/negotiate 404 错误

我将 SignalR 添加到 ASP Net Core 2 应用程序 packages Microsoft AspNetCore All 版本 2 0 0 Microsoft AspNetCore SignalR 版本 1 0 0 alph
ES6 导出对象的所有值

假设我有一个模块 my module js 有一个对象该对象应该是它的返回值 let values a 1 b 2 c 3 export values results in SyntaxError Unexpected token 所以我
FParsec 只解析括号之间的 expr

我正在编写一个解析器用于学习 pourpuses 我希望它能够解析类似的结构 let myVar be 40 plus 2 and let myVar be 40 plus 2 没有问题但我的解析器不理解前者它看到的是40并认为
Apache Netbeans 版本 11.1 使用 OpenJDK 11 构建错误

我有一个使用 JDK 8 和 NB 8 2 创建的项目我想使用 OpenJDK 11 将该项目迁移到 NB 11 1 环境是 Windows 10 上的 NB 11 1 全新安装使用 OpenJDK 11 0 2 我将所有源代码和库 j
updatepanel 回发后调用 javascript

我将以下 javascript 代码内联放置但在 updatepanel 完成回发后它不会触发 function EndRequestHandler sender args alert this should work Sys WebFo
Jquery 选项卡，在 Firefox 中重新加载 jQuery HTML 后，未格式化的列表会闪烁

我正在使用最新的 jQuery 选项卡并且我的所有选项卡以及它们上面的其他内容都位于包含 Div 中其中一个选项卡中有一个表单当表单提交时通过 AJAX 对其进行处理然后返回的 HTML 替换整个包含的 Div 返回的 HTM
反射应该使用到什么程度？

我们在项目中遇到了一个非常棘手的场景我们在项目中使用了很多反射我们有由属性和反射驱动的验证框架使用属性和反射将 DataRow 转换为实体对象的扩展方法反之亦然我们对 DataTable 和 EntityCollections
统计PHP页面中所有HTML标签

我花了时间在正则表达式上解决这个问题但没有结果我尝试使用 PHP 5 3 解决这个问题诸如在页面中重复的次数以及有关页面中所有标签的信息等信息不幸的是您的问题目前的形式几乎无法理解请尝试更新并更具体如果你想计算页面中所有 HT
Intl.DateTimeFormat 选项哈希：使用“2 位数字”获取前导零

Intl DateTimeFormat en US weekday long year numeric month long day 2 digit hour 2 digit minute 2 digit second 2 digit fo
如何使用 d3.js 将填充部分添加到 SVG 圆圈

我正在使用 d3 js 生成一些 SVG 圆圈我能够生成它们但我不知道如何将它们分成 4 个相等的部分并为每个部分填充颜色我正在使用 d3 js 版本 4 这是我的小提琴中的 javascript 片段 var nodes type
无法通过curl或Postman访问docker url

我可以使用以下路径在浏览器中访问我的网站 my dash docker localhost 8000 我正在尝试编写一个API端点但无法通过Postman或curl访问该网站 curl my dash docker localhost 8
将数据存储到 DOM - 元素值与数据属性

要将值存储在 DOM 元素中我们可以通过data属性 abc data item 1 检索做 abc data item 但今天我了解到我们也可以这样做 abc 0 item 1 检索做 abc 0 item 它们之间有什么区别哪一个更
Python 多线程在 IO 任务中没有任何好处？

我正在尝试用 python 读取数千小时的 wav 文件并获取它们的持续时间这本质上需要打开 wav 文件获取帧数并考虑采样率下面是代码 def wav duration file name wv wave open file nam

Python 多线程在 IO 任务中没有任何好处？

Python 多线程在 IO 任务中没有任何好处？ 的相关文章

随机推荐

热门标签

Python 多线程在 IO 任务中没有任何好处？的相关文章