Python - 使用 pandas 多重处理多个大尺寸文件

2023-12-07

我有一个y.csv文件。文件大小为 10 MB，包含来自Jan 2020 to May 2020.

我每个月还有一个单独的文件。例如data-2020-01.csv。它包含详细的数据。每个月文件的文件大小约为1 GB.

我正在分割y.csv按月份，然后通过加载相关月份文件来处理数据。当我去很多个月时，这个过程花费的时间太长。例如24个月。

我想更快地处理数据。我可以访问 AWSm6i.8xlarge实例有32 vCPU and 128 GB memory.

我是多处理新手。那么有人可以在这里指导我吗？

这是我当前的代码。

import pandas as pd

periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]

y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB


def process(_month_df, _index):
    idx = _month_df.index[_month_df.index.get_loc(_index, method='nearest')]
    for _, value in _month_df.loc[idx:].itertuples():

        up_delta = 200
        down_delta = 200

        up_value = value + up_delta
        down_value = value - down_delta

        if value > up_value:
            y.loc[_index, "result"] = 1
            return

        if value < down_value:
            y.loc[_index, "result"] = 0
            return


for x in periods:
    filename = "data-" + str(x[0]) + "-" + str(x[1]).zfill(2)  # data-2020-01
    filtered_y = y[(y.index.month == x[1]) & (y.index.year == x[0])]  # Only get the current month records
    month_df = pd.read_csv(f'{filename}.csv', index_col=0, parse_dates=True)  # Filesize: ~1 GB (data-2020-01.csv)

    for index, row in filtered_y.iterrows():
        process(month_df, index)

多线程池非常适合共享y线程之间的数据帧（消除了使用共享内存的需要），但不太擅长并行运行 CPU 密集型处理。多处理池非常适合执行 CPU 密集型处理，但在跨进程共享数据而不提供内存碎片表示时效果不佳。y数据框。

在这里，我重新排列了您的代码，以便使用多线程池来创建filtered_y对于每个时期（其中is这是一个 CPU 密集型操作，但 pandas 确实为某些操作释放了全局解释器锁——希望是这个）。然后我们只将一个月的数据传递到多处理池，而不是整个数据ydataframe，使用工作函数处理该月process_month。但由于每个池进程都无权访问ydataframe，它只返回需要用要替换的值更新的索引。

import pandas as pd
from multiprocessing.pool import Pool, ThreadPool, cpu_count

def process_month(period, filtered_y):
    """
    returns a list of tuples consisting of (index, value) pairs
    """
    filename = "data-" + str(period[0]) + "-" + str(period[1]).zfill(2)  # data-2020-01
    month_df = pd.read_csv(f'{filename}.csv', index_col=0, parse_dates=True)  # Filesize: ~1 GB (data-2020-01.csv)
    results = []
    for index, row in filtered_y.iterrows():   
        idx = month_df.index[month_df.index.get_loc(index, method='nearest')]
        for _, value in month_df.loc[idx:].itertuples():
    
            up_delta = 200
            down_delta = 200
    
            up_value = value + up_delta
            down_value = value - down_delta
    
            if value > up_value:
                results.append((index, 1))
                break
    
            if value < down_value:
                results.append((index, 0))
                break
    return results

def process(period):
    filtered_y = y[(y.index.month == period[1]) & (y.index.year == period[0])]  # Only get the current month records
    for index, value in multiprocessing_pool.apply(process_month, (period, filtered_y)):
        y.loc[index, "result"] = value

def main():
    global y, multiprocessing_pool

    periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB

    MAX_THREAD_POOL_SIZE = 100
    thread_pool_size = min(MAX_THREAD_POOL_SIZE, len(periods))
    multiprocessing_pool_size = min(thread_pool_size, cpu_count())
    with Pool(multiprocessing_pool_size) as multiprocessing_pool, \
    ThreadPool(thread_pool_size) as thread_pool:
        thread_pool.map(process, periods)
        
    # Presumably y gets written out again as a CSV file here?

# Required for Windows:
if __name__ == '__main__':
    main()

仅使用单个多处理池的版本

import pandas as pd
from multiprocessing.pool import Pool, ThreadPool, cpu_count

def process_month(period):
    """
    returns a list of tuples consisting of (index, value) pairs
    """
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB
    filtered_y = y[(y.index.month == period[1]) & (y.index.year == period[0])]  # Only get the current month records
    filename = "data-" + str(period[0]) + "-" + str(period[1]).zfill(2)  # data-2020-01
    month_df = pd.read_csv(f'{filename}.csv', index_col=0, parse_dates=True)  # Filesize: ~1 GB (data-2020-01.csv)
    results = []
    for index, row in filtered_y.iterrows():   
        idx = month_df.index[month_df.index.get_loc(index, method='nearest')]
        for _, value in month_df.loc[idx:].itertuples():
    
            up_delta = 200
            down_delta = 200
    
            up_value = value + up_delta
            down_value = value - down_delta
    
            if value > up_value:
                results.append((index, 1))
                break
    
            if value < down_value:
                results.append((index, 0))
                break
    return results

def main():
    periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]

    multiprocessing_pool_size = min(len(periods), cpu_count())
    with Pool(multiprocessing_pool_size) as multiprocessing_pool:
        results_list = multiprocessing_pool.map(process_month, periods)
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB
    for results in results_list:
        for index, value in results:
            y.loc[index, "result"] = value
    # Write out new csv file:
    ...

# Required for Windows:
if __name__ == '__main__':
    main()

现在，它的一个变体使用更多的内存，但允许主进程将其处理与多处理池重叠。如果需要更新的索引数量非常大，这可能会很有用：

...
def main():
    periods = [(2020, 1), (2020, 2), (2020, 3), (2020, 4), (2020, 5)]

    multiprocessing_pool_size = min(len(periods), cpu_count() - 1) # save a core for the main process
    y = pd.read_csv("y.csv", index_col=0, parse_dates=True).fillna(0)  # Filesize: ~10 MB
    with Pool(multiprocessing_pool_size) as multiprocessing_pool:
        # Process values as soon as they are returned:
        for results in multiprocessing_pool.imap_unordered(process_month, periods):
            for index, value in results:
                y.loc[index, "result"] = value
    # Write out new csv file:
    ...

最后一个版本可能会更优秀，因为它在将任务提交到池之前首先读取 csv 文件，并且根据平台及其缓存 I/O 操作的方式，可能会导致工作函数不必执行任何物理 I/O 来读取在其文件副本中。但那又是一个10M的文件被读入内存了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python - 使用 pandas 多重处理多个大尺寸文件的相关文章

如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
neo4j - python 驱动程序，服务不可用

我对 neo4j 非常陌生我正在尝试建立从 python3 6 到 neo4j 的连接我已经安装了驱动程序并且刚刚开始执行第一步导入请求导入操作系统导入时间导入urllib 从 neo4j v1 导入 GraphDatabas

随机推荐

如何将自定义数据加载到 keras Cyclegan 示例的 tfds 中？

按照中的示例https keras io examples generative cyclegan 已加载预先存在的数据集以供实施我正在尝试添加我的数据集 import tensorflow datasets as tfds data t
PyQt6：如何在 QImageReader 中设置分配限制？

我正在将应用程序从 PyQt5 更新到 PyQt6 该应用程序使用非常大的图像文件我已经更新了代码以使用 PyQt6 但是当我运行 Python 脚本时我现在收到错误 QImageIOHandler 拒绝图像因为它超出了当前分配限
如何在laravel中使用createMany方法插入多条记录

我想使用 createMany 创建多记录如何在没有数据复制的情况下将数组插入到此方法 public function update Request request Question question options request gt
将嵌入引号的 csv 文件读取到 R 中

我必须使用如下所示的 csv 文件 IDEA ID IDEA TITLE VOTE VALUE 56144 Net Present Value PLUS NPV 1 56144 Net Present Value PLUS NPV 1 如果
cakephp 表单验证

有谁知道 cakePHP 中的表单是否有 VALIDATE 函数并查看错误数组我检查了文档但我发现的唯一东西是 SAVE 功能我只需要知道我发送的数据是否有效并手动检查错误 Try this this gt ModelName gt
在函数调用的同一行获取哈希键/值

这是重现问题的代码 sub hello return h gt 1 n gt 1 print join values hello 我收到错误 arg 1 到值的类型必须是散列不是子程序入口在第 4 行靠近执行由于中止到编译错误
MVVM：绑定一个 ViewModel，它将构造函数参数传递给 UserControl

我的 WPF 应用程序有一个 MainWindow 其中包含一个名为 Tvshow GridView 的用户控件主窗口
多维 std::array [重复]

这个问题在这里已经有答案了在C 中如何创建多维std array 我试过这个 std array
如何创建“动态”WHERE 子句？

第一谢谢我完成了我的另一个项目并得到了很大的惊喜现在一切都按预期进行感谢一些有帮助的思想家所以我开始下一个项目我想要得到这样的东西 SELECT FROM tablename WHERE field1 content AND
通过传递输出迭代器从函数填充 std::[container]

我想通过传递输出迭代器从函数内部填充容器因为据我所知这是最有效的方法例如 template
SDL 事件处理不起作用

我目前正在通过阅读 Lazy foo 教程来学习 SDL 我在 Linux 上使用代码块 13 12 我无法使事件处理正常工作我基本上是在尝试显示图像效果很好但无论我单击关闭按钮多少次它都不会关闭 Code include
比较向量值：1 个元素与所有其他元素

我想知道如何将向量的 1 个元素与另一个向量中的所有元素进行比较举个例子假设 x lt c 1 10 y lt c 10 11 12 13 14 1 7 现在我可以逐个比较元素 x y 1 FALSE FALSE FALSE FALSE
计算集合列表中所有组合的交集

我有一套集合我想找到仅在每个集合组合的交集中找到的项目数我基本上想做与在维恩图中创建数字相同的事情一个基本的例子可能会更清楚 a set 1 2 5 10 12 b set 1 2 6 9 12 15 c set 1 2 7 8 15
如何分割 Tensorflow 数据集？

我有一个基于一个 tfrecord 文件的张量流数据集如何将数据集拆分为测试数据集和训练数据集例如 70 训练 30 测试 Edit 我的张量流版本 1 8 我已经检查过没有可能的重复项中提到的 split v 函数我也在使用 tf
Angular 2 - 如何有条件地向我的组件添加样式？

我有一个带有样式表的组件可以正确加载如下所示 Component selector open account styleUrls open account component scss templateUrl open account
如何从不同的模型/控制器渲染局部视图？

我有以下名为 Categories 的部分视图位于 Views Category Categories 中 model IEnumerable
如何将运行lwuit的j2me转换为android？

如何将使用 lwuit 库的 J2ME 应用程序转换为 Android apk 我尝试使用 mircoemulator 进行转换但是当我启动应用程序时它显示错误并退出读这篇文章适用于 Android 的 LWUIT 这里清楚地讲述了
ggplot2中仅显示一个文本值

我试图将文本打印限制为条形图中的一个变量我怎样才能只标记粉红色的条601 215 399 456 ggplot df aes Var1 value label value fill Var2 geom bar stat identity
cassandra 2.2 CQl Shell 支持 python 2.7

尝试启动 cql Shell 时出现错误 gt cqlsh CQL Shell supports only Python 2 7 gt 我已经安装了python2 7但它仍然给出相同的错误我必须设置一些路径吗我已经使用此命令从 data
Python - 使用 pandas 多重处理多个大尺寸文件

我有一个y csv文件文件大小为 10 MB 包含来自Jan 2020 to May 2020 我每个月还有一个单独的文件例如data 2020 01 csv 它包含详细的数据每个月文件的文件大小约为1 GB 我正在分割y csv按月

Python - 使用 pandas 多重处理多个大尺寸文件

Python - 使用 pandas 多重处理多个大尺寸文件 的相关文章

随机推荐

热门标签

Python - 使用 pandas 多重处理多个大尺寸文件的相关文章