在 pandas 中连接或附加大量 xlsx 文件的最佳且有效的方法

2023-12-26

熊猫新手在自学方面取得了一些进展，所以我想要最好、最有效的方法来处理这个问题：

我有 3 个有时超过 3 个 excel 文件“.xlsx”，每个文件大约 100MB，每个文件至少有 800K 记录和 200 列。

这些文件完全相同地共享相同的列，它们被分割，因为它们是从无法处理所有这些文件组合的系统导出的。

我想将文件加载到一个数据框中，打开每个数据帧，然后concat or append我知道这取决于机器的内存，但我正在寻找处理这些文件并在一帧中控制它们的最佳方法。

这就是我所拥有的：

start = timeit.default_timer()

all_data = pd.DataFrame()
for f in glob.glob("./data/*.xlsx"):
    df = pd.read_excel(f)
    all_data = all_data.append(df,ignore_index=True)

    
all_data

stop = timeit.default_timer()
execution_time = stop - start

print (execution_time)

使用append，加载df中的文件大约需要7分钟all_data

有没有最好的方法来在更短的时间内加载它们？

您可以使用multiprocessing提高加载和使用速度concat合并所有dfs：

import pandas as pd
import multiprocessing
import glob
import time


def read_excel(filename):
    return pd.read_excel(filename)


if __name__ == "__main__":
    files = glob.glob("./data/*.xlsx")

    print("Sequential")
    print(f"Loading excel files: {time.strftime('%H:%M:%S', time.localtime())}")
    start = time.time()
    data = [read_excel(filename) for filename in files]
    end = time.time()
    print(f"Loaded excel files in {time.strftime('%H:%M:%S', time.gmtime(end-start))}")
    df_sq = pd.concat(data).reset_index(drop=True)

    print("Multiprocessing")
    with multiprocessing.Pool(multiprocessing.cpu_count()) as pool:
        print(f"Loading excel files: {time.strftime('%H:%M:%S', time.localtime())}")
        start = time.time()
        data = pool.map(read_excel, files)
        end = time.time()
        print(f"Loaded excel files in {time.strftime('%H:%M:%S', time.gmtime(end-start))}")
        df_mp = pd.concat(data).reset_index(drop=True)

Example：50 个 25MB 的文件（增益 2 倍）

Sequential
Loading excel files: 09:12:17
Loaded excel files in 00:00:14
Multiprocessing
Loading excel files: 09:12:33
Loaded excel files in 00:00:07

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

在 pandas 中连接或附加大量 xlsx 文件的最佳且有效的方法的相关文章

pyCUDA无法打印结果

最近我使用 pip 为我的 python3 4 3 安装 pyCUDA 但我在测试示例代码时发现 https documen tician de pycuda tutorial html getting started https doc
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
Python 在哪些系统上不使用 IEEE-754 双精度浮点数

Python 对 IEEE 754 浮点运算进行了各种引用但不保证1 https docs python org 3 tutorial floatingpoint html 2 https pythondev readthedocs io
Pandas 合并指标自定义值

在 pandas 合并期间将指示器更新为更友好的消息的最快方法是什么默认indicator True yields left only right only both 我想更新为Only present in last month s d
Eclipse/PyDev 中未使用导入警告，尽管已使用

我正在我的文件中导入一个绘图包如下所示 import matplotlib pyplot as plt 稍后我会在我的代码中成功使用此导入 fig plt figure figsize 16 10 然而 Eclipse 告诉我未使用的导
哪种方式最适合Python工厂注册？

这是一个关于这些方法中哪一种被认为是最有效的问题 Pythonic 我不是在寻找个人意见而是在寻找惯用的观点我的背景不是Python 所以这会对我有帮助我正在开发一个可扩展的 Python 3 项目这个想法类似于工厂模式只不过它是
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
如何通过selenium中弹出的身份验证？

我正在尝试使用带有 Selenium 的 Python 脚本加载需要身份验证的网页 options webdriver ChromeOptions prefs download default directory r download de
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
超过两个点的Python相对导入

是否可以使用路径中包含两个以上点的模块引用就像这个例子一样 Project structure sound init py codecs init py echo init py nix init py way1 py way2 py w
使用 python 将 CSV 文件上传到 Microsoft Azure 存储帐户

我正在尝试上传一个 csv使用 python 将文件写入 Microsoft Azure 存储帐户我已经发现C sharp https blogs msdn microsoft com jmstall 2012 08 03 convert

随机推荐

将 GridSearchCV 与 AdaBoost 和 DecisionTreeClassifier 结合使用

我正在尝试使用 DecisionTreeClassifier DTC 作为 base estimator 来调整 AdaBoost 分类器 ABT 我想调bothABT 和 DTC 参数同时存在但我不确定如何实现这一点管道不应该工作因
如何将 Mac 地址转换为十六进制并将其传递给 java 中的字节数组

如何将 MacAddress 转换为十六进制字符串然后将其解析为 java 中的字节以及类似的 IP 地址谢谢 MAC地址已经是十六进制格式它是6对2个十六进制数字的形式 String macAddress AA BB CC DD
RxJs：如何在订阅之前获取发出的值？

使用 RxJs 一旦我们开始订阅一个 observable 一旦它们被发出我们就会开始获取它们但是如何在订阅之前获取 observable 发出的所有值呢可观察量只是一个从现在到时间结束之间返回 0 个或多个值的函数与任何其他函数一
delphi中父类和子类之间的转换

我正在编写一些针对非常相似硬件的两个版本的软件在我使用 API 初始化硬件之前我无法知道我将返回哪种类型因为硬件非常相似所以我计划有一个父类 TParent 它有一些抽象方法针对硬件不同的地方然后有两个子类 TChildA TC
如何在 DSN 中指定用户名和密码？

官方文档页面PDO DSN https www php net manual en ref pdo mysql connection php尚未列出用户名或密码这些键值对的正确名称是什么看起来文档还没有更新但是这是相关的变化 http
如何使所有选项在

在 pandas 中连接或附加大量 xlsx 文件的最佳且有效的方法

在 pandas 中连接或附加大量 xlsx 文件的最佳且有效的方法 的相关文章

随机推荐

在 pandas 中连接或附加大量 xlsx 文件的最佳且有效的方法的相关文章