使用 python 的多处理池和映射函数测量进度

2024-01-19

我用于并行 csv 处理的以下代码：

#!/usr/bin/env python

import csv
from time import sleep
from multiprocessing import Pool
from multiprocessing import cpu_count
from multiprocessing import current_process
from pprint import pprint as pp

def init_worker(x):
  sleep(.5)
  print "(%s,%s)" % (x[0],x[1])
  x.append(int(x[0])**2)
  return x

def parallel_csv_processing(inputFile, outputFile, header=["Default", "header", "please", "change"], separator=",", skipRows = 0, cpuCount = 1):
  # OPEN FH FOR READING INPUT FILE
  inputFH   = open(inputFile,  "rt")
  csvReader = csv.reader(inputFH, delimiter=separator)

  # SKIP HEADERS
  for skip in xrange(skipRows):
    csvReader.next()

  # PARALLELIZE COMPUTING INTENSIVE OPERATIONS - CALL FUNCTION HERE
  try:
    p = Pool(processes = cpuCount)
    results = p.map(init_worker, csvReader, chunksize = 10)
    p.close()
    p.join()
  except KeyboardInterrupt:
    p.close()
    p.join()
    p.terminate()

  # CLOSE FH FOR READING INPUT
  inputFH.close()

  # OPEN FH FOR WRITING OUTPUT FILE
  outputFH  = open(outputFile, "wt")
  csvWriter = csv.writer(outputFH, lineterminator='\n')

  # WRITE HEADER TO OUTPUT FILE
  csvWriter.writerow(header)

  # WRITE RESULTS TO OUTPUT FILE
  [csvWriter.writerow(row) for row in results]

  # CLOSE FH FOR WRITING OUTPUT
  outputFH.close()

  print pp(results)
  # print len(results)

def main():
  inputFile  = "input.csv"
  outputFile = "output.csv"
  parallel_csv_processing(inputFile, outputFile, cpuCount = cpu_count())

if __name__ == '__main__':
  main()

我想以某种方式测量脚本的进度（只是纯文本，而不是任何花哨的 ASCII 艺术）。我想到的一个选择是比较已成功处理的行init_worker到 input.csv 中的所有行，并打印实际状态，例如每一秒，你能指出我正确的解决方案吗？我发现了几篇有类似问题的文章，但我无法使其适应我的需要，因为都没有使用Pool类和map方法。我还想问一下p.close(), p.join(), p.terminate()方法，我主要看到过它们Process not Pool类，他们有必要吗Pool类以及我是否正确使用它们？使用p.terminate()本来是想用 ctrl+c 来终止进程，但这是不同的 https://stackoverflow.com/questions/32160054/keyboard-interrupts-with-pythons-multiprocessing-pool-and-map-function故事还没有美好的结局。谢谢。

PS：如果重要的话，我的 input.csv 看起来像这样：

0,0
1,3
2,6
3,9
...
...
48,144
49,147

PPS：正如我所说，我是新手multiprocessing我编写的代码可以正常工作。我看到的一个缺点是整个 csv 都存储在内存中，所以如果你们有更好的想法，请随时分享。

Edit

回复 @J.F.Sebastian

这是根据您的建议我的实际代码：

#!/usr/bin/env python

import csv
from time import sleep
from multiprocessing import Pool
from multiprocessing import cpu_count
from multiprocessing import current_process
from pprint import pprint as pp
from tqdm import tqdm

def do_job(x):
  sleep(.5)
  # print "(%s,%s)" % (x[0],x[1])
  x.append(int(x[0])**2)
  return x

def parallel_csv_processing(inputFile, outputFile, header=["Default", "header", "please", "change"], separator=",", skipRows = 0, cpuCount = 1):

  # OPEN FH FOR READING INPUT FILE
  inputFH   = open(inputFile,  "rb")
  csvReader = csv.reader(inputFH, delimiter=separator)

  # SKIP HEADERS
  for skip in xrange(skipRows):
    csvReader.next()

  # OPEN FH FOR WRITING OUTPUT FILE
  outputFH  = open(outputFile, "wt")
  csvWriter = csv.writer(outputFH, lineterminator='\n')

  # WRITE HEADER TO OUTPUT FILE
  csvWriter.writerow(header)

  # PARALLELIZE COMPUTING INTENSIVE OPERATIONS - CALL FUNCTION HERE
  try:
    p = Pool(processes = cpuCount)
    # results = p.map(do_job, csvReader, chunksize = 10)
    for result in tqdm(p.imap_unordered(do_job, csvReader, chunksize=10)):
      csvWriter.writerow(result)
    p.close()
    p.join()
  except KeyboardInterrupt:
    p.close()
    p.join()

  # CLOSE FH FOR READING INPUT
  inputFH.close()

  # CLOSE FH FOR WRITING OUTPUT
  outputFH.close()

  print pp(result)
  # print len(result)

def main():
  inputFile  = "input.csv"
  outputFile = "output.csv"
  parallel_csv_processing(inputFile, outputFile, cpuCount = cpu_count())

if __name__ == '__main__':
  main()

这是输出tqdm:

1 [elapsed: 00:05,  0.20 iters/sec]

这个输出是什么意思？在您引用的页面上tqdm在循环中使用以下方式：

>>> import time
>>> from tqdm import tqdm
>>> for i in tqdm(range(100)):
...     time.sleep(1)
... 
|###-------| 35/100  35% [elapsed: 00:35 left: 01:05,  1.00 iters/sec]

这个输出是有道理的，但是我的输出是什么意思呢？而且 ctrl+c 问题似乎也没有得到解决：点击 ctrl+c 脚本后会抛出一些回溯，如果我再次点击 ctrl+c 则会得到新的回溯，依此类推。杀死它的唯一方法是将其发送到后台（ctr+z），然后杀死它（kill %1）

要显示进度，请替换pool.map with pool.imap_unordered:

from tqdm import tqdm # $ pip install tqdm

for result in tqdm(pool.imap_unordered(init_worker, csvReader, chunksize=10)):
    csvWriter.writerow(result)

tqdm https://github.com/noamraph/tqdm部分是可选的，请参阅控制台中的文本进度栏 https://stackoverflow.com/q/3173320/4279

一不小心，它修复了你的“整个 csv 存储在内存中”和“键盘中断未引发”问题。

这是一个完整的代码示例：

#!/usr/bin/env python
import itertools
import logging
import multiprocessing
import time

def compute(i):
    time.sleep(.5)
    return i**2

if __name__ == "__main__":
    logging.basicConfig(format="%(asctime)-15s %(levelname)s %(message)s",
                        datefmt="%F %T", level=logging.DEBUG)
    pool = multiprocessing.Pool()
    try:
        for square in pool.imap_unordered(compute, itertools.count(), chunksize=10):
            logging.debug(square) # report progress by printing the result
    except KeyboardInterrupt:
        logging.warning("got Ctrl+C")
    finally:
        pool.terminate()
        pool.join()

您应该每隔一段时间就会看到批量输出.5 * chunksize秒。如果你按Ctrl+C;你应该看到KeyboardInterrupt在子进程和主进程中引发。在Python 3中，主进程立即退出。在 Python 2 中，KeyboardInterrupt延迟到应该打印下一批（Python 中的错误）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 python 的多处理池和映射函数测量进度的相关文章

让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
InvalidOperationException - 对象当前正在其他地方使用 - 红十字

我有一个 C 桌面应用程序其中我连续创建的一个线程从源实际上是一台数码相机获取图像并将其放在 GUI 中的面板 panel Image img 上这必须是另一个线程如它是控件的代码隐藏该应用程序可以工作但在某些机器上我会在随
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
使用 std::packaged_task/std::exception_ptr 时，线程清理程序报告数据争用

我遇到了线程清理程序 TSan 的一些问题抱怨某些生产代码中的数据争用其中 std packaged task 通过将它们包装在 std function 中而移交给调度程序线程对于这个问题我简化了它在生产中的作用同时触发 TSa
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
XSLT 将动态 XML 转换为 CSV 并且 XML 节点不完全重复 II

我正在尝试创建 XSLT 将 XML 转换为 CSV 这里放置了我的 XML 和预期输出任何人都知道如何获得以下输出请优先分享我我的 XML 是

随机推荐

ASP .NET Core 2.0 将“localhost”更改为“主机名”

我有一个基于MVC框架编写的Web应用程序它在本地主机和默认端口 51290 上运行得非常好现在我需要使用我的域名运行它例如我的主机名我尝试的是在 applicationhost config 部分添加一行
从后台返回时 AVCaptureSession 失败

我有一个相机预览窗口 90 的时间都运行良好然而有时当返回我的应用程序时如果它位于后台预览将不会显示这是我在视图加载时调用的代码 void startCamera session AVCaptureSession alloc i
SearchView getActionView 返回 null

前几天还可以用但是突然就停止了我只想在某些片段可见时使用操作栏搜索小部件现在我无法获得SearchView now getActionView总是返回 null 可搜索 xml
使用 php 和 mysql 发送提醒电子邮件而不使用 cron-job？

我刚刚制作了一个 php 脚本它将在约会开始前 2 天向网站管理员发送电子邮件提醒我本来打算自动化脚本来运行 cron 作业却发现我托管的人疯狂的域似乎没有 Cron 作业有没有办法在没有 cron jobs 的情况下做到这一点
转置没有聚合的行和列

我有以下数据集 Account Contact 1 324324324 1 674323234 2 833343432 2 433243443 3 787655455 4 754327545 4 455435435 5 543544355
如何在此 Builder 实现中摆脱 instanceof

The idea 我需要创建命令命令可以配置参数并非每个命令都可以接收相同的参数所以有些必须被忽略我有一个抽象类 Command 其中定义了一个 Builder 默认情况下每个附加参数都会抛出 UnsupportedOperati
在 pandas 中使用带有元组列的查询

我有一个 pandas df 其中一列作为元组我想用query使用元组的第一个条目对 df 进行子集化最好的方法是什么我在 pandas 23 3 Python 3 6 6 MWE import pandas as pd df pd
Gitlab-ci.yml 创建合并请求

我在 DEV 分支中运行以下 gitlab ci yml 文件目标也为 DEV 由于我无法将 TARGET 指向 MASTER 因此不会自动创建 MR 我想知道是否可以在 gitlab ci 脚本本身中创建合并请求 dev stage d
拉力赛中的速度图[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开展一个项目从拉力赛中提取数据并创建速度图表我了解要使用的 REST Web 服务 API 是缺陷迭代分层需求和迭代累积
具有 IDisposable 的无限状态机

假设我有一个无限状态机来生成随机 md5 哈希值 public static IEnumerable
使用 MongoDB 生成的 _ids 作为“秘密数据”（例如，OAuth 令牌）

是 MongoDB id字段足够随机不可猜测来充当秘密数据例如如果我正在构建服务器端 OAuth 我可以使用 id 作为用户的 OAuth 令牌吗我想这样做是因为它为数据库提供了清洁性和可索引性例如 tokens id gt oa
IntentService 中未调用 OnHandleIntent()

我知道这个问题以前曾被问过但我已经浏览了所有我能找到的答案但仍然无法解决问题问题是当 BroadcastReceiver 启动时不会调用 IntentService onHandleIntent 奇怪的是构造函数确实运行了正如我
将计算出的键添加到集合中

请考虑这个由男人和女人组成的数据集我根据几个变量在第二个时刻进行过滤 type ls JsonProvider lt gt let dt ls GetSamples let dt2 dt gt Seq filter fun c gt c
处理 django 查询中的外来字符

我正在构建从 GeoNames com 导入的城市名称搜索有些城市的名称中带有国际字符例如伊斯坦布尔实际上是数据库中的伊斯坦布尔当人们搜索伊斯坦布尔时伊斯坦布尔不会出现有没有一种方法可以在搜索中添加过滤器或解码器来知道
javascript从对象数组中获取键名称

from data ja 大阪市 en Osaka 我想要得到 ja and en 我尝试了几种方法 data map function i return i 它返回数字数组 console log Object keys Object
Espresso - 如何将 typeText 切换为英语或其他语言输入模式

我正在使用 Espresso 来实现我的应用程序的自动测试框架但在我设计的一些测试用例中我发现我的测试总是失败根本原因并不在于我对功能实现代码的测试代码根本原因是在android输入法模式下有时候在中文输入模式下我输入的文字是
jQuery .load 回调函数中 textStatus 参数的所有可能值是什么？

我正在利用 jQuery 的回调函数 load http api jquery com load 方法来运行某些代码如果textStatus的参数 loadmethod 等于某个字符串例如我有 jQuery myContainer lo
VSCode 中具有语义突出显示的语言服务器

我想写一个语言服务器VSCode具有语义突出显示支持我使用的语言有非常复杂的规则所以我不想依赖标记器来区分标识符和关键字我已经在以下地区提供语言服务VS Community 我在那里编写了自己的分类器可以编写自己的分类器VSCode
在 OCR（光学字符识别）之前，您推荐使用什么软件进行图像增强？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们目前正在研究在提交 OCR 之前提高图像质量的方法我们当前使用的 OCR 引擎是 Nuance v15 的 Scansoft API
使用 python 的多处理池和映射函数测量进度

我用于并行 csv 处理的以下代码 usr bin env python import csv from time import sleep from multiprocessing import Pool from multiproces

使用 python 的多处理池和映射函数测量进度

使用 python 的多处理池和映射函数测量进度 的相关文章

随机推荐

热门标签

使用 python 的多处理池和映射函数测量进度的相关文章