如何加快 Pandas 多级数据帧总和？

2024-01-07

我正在尝试加快几个大型多级数据帧的求和速度。

这是一个示例：

df1 = mul_df(5000,30,400) # mul_df to create a big multilevel dataframe
#let df2, df3, df4 = df1, df1, df1 to minimize the memory usage, 
#they can also be mul_df(5000,30,400) 
df2, df3, df4 = df1, df1, df1

In [12]: timeit df1+df2+df3+df4
1 loops, best of 3: 993 ms per loop

我对 993ms 不满意，有什么办法可以加快速度吗？ cython 可以提高性能吗？如果是，如何编写 cython 代码？谢谢。

Note: mul_df()是创建演示多级数据帧的函数。

import itertools
import numpy as np
import pandas as pd

def mul_df(level1_rownum, level2_rownum, col_num, data_ty='float32'):
    ''' create multilevel dataframe, for example: mul_df(4,2,6)'''

    index_name = ['STK_ID','RPT_Date']
    col_name = ['COL'+str(x).zfill(3) for x in range(col_num)]

    first_level_dt = [['A'+str(x).zfill(4)]*level2_rownum for x in range(level1_rownum)]
    first_level_dt = list(itertools.chain(*first_level_dt)) #flatten the list
    second_level_dt = ['B'+str(x).zfill(3) for x in range(level2_rownum)]*level1_rownum

    dt = pd.DataFrame(np.random.randn(level1_rownum*level2_rownum, col_num), columns=col_name, dtype = data_ty)
    dt[index_name[0]] = first_level_dt
    dt[index_name[1]] = second_level_dt

    rst = dt.set_index(index_name, drop=True, inplace=False)
    return rst

Update:

我的奔腾双核的数据[电子邮件受保护] /cdn-cgi/l/email-protection、3.00GB RAM、WindowXP、Python 2.7.4、Numpy 1.7.1、Pandas 0.11.0、numexpr 2.0.1（Anaconda 1.5.0（32 位））

In [1]: from pandas.core import expressions as expr
In [2]: import numexpr as ne

In [3]: df1 = mul_df(5000,30,400)
In [4]: df2, df3, df4 = df1, df1, df1

In [5]: expr.set_use_numexpr(False)
In [6]: %timeit df1+df2+df3+df4
1 loops, best of 3: 1.06 s per loop

In [7]: expr.set_use_numexpr(True)
In [8]: %timeit df1+df2+df3+df4
1 loops, best of 3: 986 ms per loop

In [9]: %timeit  DataFrame(ne.evaluate('df1+df2+df3+df4'),columns=df1.columns,index=df1.index,dtype='float32')
1 loops, best of 3: 388 ms per loop

方法1：在我的机器上还不错（用numexpr禁用）

In [41]: from pandas.core import expressions as expr

In [42]: expr.set_use_numexpr(False)

In [43]: %timeit df1+df2+df3+df4
1 loops, best of 3: 349 ms per loop

方法二：使用numexpr（默认情况下启用，如果numexpr已安装）

In [44]: expr.set_use_numexpr(True)

In [45]: %timeit df1+df2+df3+df4
10 loops, best of 3: 173 ms per loop

方法三：直接使用numexpr

In [34]: import numexpr as ne

In [46]: %timeit  DataFrame(ne.evaluate('df1+df2+df3+df4'),columns=df1.columns,index=df1.index,dtype='float32')
10 loops, best of 3: 47.7 ms per loop

这些加速是通过使用实现的numexpr因为：

避免使用中间临时数组（在您呈现的情况下可能是在 numpy 中效率很低，我怀疑这是被评估的((df1+df2)+df3)+df4
使用可用的多核

正如我上面暗示的，pandas 使用numexpr在某些类型的操作（0.11 中）的幕后，例如df1 + df2将以这种方式进行评估，但是您在此处给出的示例将导致多次调用numexpr（这是方法2比方法1更快。）。直接使用（方法3）ne.evaluate(...)实现更多的加速。

请注意，在pandas 0.13（0.12将于本周发布）中，我们实现了一个功能pd.eval这实际上将完全按照我上面的示例所做的事情。请继续关注（如果您喜欢冒险，这很快就会成为大师：https://github.com/pydata/pandas/pull/4037 https://github.com/pydata/pandas/pull/4037)

In [5]: %timeit pd.eval('df1+df2+df3+df4')
10 loops, best of 3: 50.9 ms per loop

最后回答一下你的问题，cython在这里根本没有帮助；numexpr对于此类问题非常有效（也就是说，有arecython 有帮助的情况）

需要注意的是：为了使用直接 Numexpr 方法，帧应该已经对齐（Numexpr 对 numpy 数组进行操作，并且不知道有关索引的任何信息）。它们也应该是单一的数据类型

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何加快 Pandas 多级数据帧总和？的相关文章

VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
计算 Richtextbox 中所有单词的最有效方法是什么？

我正在编写一个文本编辑器需要提供实时字数统计现在我正在使用这个扩展方法 public static int WordCount this string s s s TrimEnd if String IsNullOrEmpty s re
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

从命令行使用 git 属性

我的仓库中有这样的配置 echo java diff java gt gt gitattributes 当我这样做时git diff 我得到了预期的结果不过我正在编写一个脚本来分析其他 git 存储库所以我通常会这样做 git git
Vaadin 会话管理 - 它是如何工作的？

在工作中我们使用 Vaadin 开发一个 Web 应用程序我是一位相当高级的 Java 程序员我对 Vaadin 也有经验但现在我已经到了需要将信息存储在用户会话中的地步区域设置用户名等属性 In the Vaadin 文档 h
Django Auth LDAP - 使用 sAMAccountName 直接绑定

有两种方法可以使用 Django Auth LDAP 对用户进行身份验证搜索绑定和直接绑定第一个涉及匿名或使用固定帐户连接到 LDAP 服务器并搜索身份验证用户的可分辨名称然后我们可以尝试再次使用用户的密码进行绑定第二种方法是从
自动判断用户定义函数是否与隐式函数等价

有时用户实现的函数具有与其隐式定义版本相同的功能例如复制构造函数只调用其所有成员的复制构造函数 struct A int B A const A a B a B 这是不希望的因为它会导致额外的维护例如如果类成员被重命名重新排序
$.clone 和 .cloneNode

我对 jQuery 之间的区别有点困惑 clone和原始的 cloneNode财产如果我在做 blah cloneNode true 这将在 jQuery 空间之外创建一个全局对象 If I use blah clone true 这将在
允许 foreach 工作人员注册并将子任务分配给其他工作人员

我有一个 R 代码其中涉及多个 foreach 工作人员来并行执行一些任务我正在使用 foreach 和 doMC 来实现此目的我想让每个 foreach 工作人员招募一些新工作人员并将其代码的某些部分可并行分发给他们当前的代
增强 now.js/socket.io 聊天的安全性

与聊天nowjs http nowjs org or 套接字 io http socket io 是您可以用它们进行的最简单的练习之一我想使用 nowjs 的 Group 对象实现多房间聊天具有非固定数量的房间和登录用户我还没有直接使
从内存中的 ASCII 而不是从文件连接反序列化对象

实际问题如何将对象序列化为 ASCII 并再次从 ASCII 反序列化without必须对文件连接进行写入和读取即从内存中的 ASCII 背景在无状态的客户端服务器框架中我想使某些信息在调用中持久化序列化 gt gt 发送到客户
无法从 Func 转换为 Func

我对这个错误很困惑 Cannot implicitly convert type System Func
jQuery - 在单个事件处理程序中组合选择器的问题

这是关于 Patrick DW 对我对这个问题的回答的评论多个选择器确定触发选择器 https stackoverflow com questions 4315075 multiple selectors identify the tr
PHP include_once

使用 PHP 效率更高吗include once or require once而不是使用类似 C 的include带头护罩 I e include once init php versus include init php content
如何将 YouTube 句柄映射到频道 ID

YouTube 最近推出handles https www youtube com handle他们为用户提供了 youtube com xxx 类型的用户名当访问这些 URL 时会显示用户的频道但我在 API 存储库中找不到任何文档或
在 ASP.NET Core 中，IoC ASP 启动类是否解决了托管可扩展性框架通过目录和容器解决的问题？

我读过这篇文章 MEF 托管可扩展性框架与 IoC DI https stackoverflow com questions 108116 mef managed extensibility framework vs ioc di但它已经
centos中前台运行mysql

我正在为 mysql 数据库构建 docker 镜像为此我必须在前台运行 mysql 而不是作为守护服务运行我正在使用 centos 基础镜像如何让mysql在前台运行如果你跑mysqld safe CMD mysqld safe
如何检查 $_GET 参数是否存在但没有值？

我想检查是否app参数存在于 URL 中但没有值 Example my url php app I tried isset and empty 但不起作用我以前见过它是怎么做的但我忘记了空是正确的你想同时使用 is set 和 e
在 hg 状态中显示重命名？

我知道 Mercurial 可以跟踪文件的重命名但我如何才能跟踪文件的重命名show当我这样做时我会重命名而不是添加删除hg status 例如而不是 A bin extract csv column pl A bin find m
如何在 matlab 中读取具有可变十六进制值列的文本文件？

我有一个相当大的文本文件超过 16 000 行其格式如下 ID Line Num Var Col Length Values HEX 45 00001 FFFF FFFF 0000 0000 45 00002 0000 0000 FFF
回形针：一个模型中存在多个“has_attached_file”

我的模型片段 attr accessible package1 file name package2 file name has attached file package1 has attached file package2 来自我的
.NET 类何时应重写 Equals()？什么时候不应该？

VS2005文档重载 Equals 和运算符的指南 C 编程指南 http msdn microsoft com en us library ms173147 28v vs 80 29 aspx部分状态不建议在非不可变类型中重写运算符
如何加快 Pandas 多级数据帧总和？

我正在尝试加快几个大型多级数据帧的求和速度这是一个示例 df1 mul df 5000 30 400 mul df to create a big multilevel dataframe let df2 df3 df4 df1 df1

如何加快 Pandas 多级数据帧总和？

如何加快 Pandas 多级数据帧总和？ 的相关文章

随机推荐

热门标签

如何加快 Pandas 多级数据帧总和？的相关文章